發表文章

目前顯示的是 6月, 2026的文章

[AI] WhisperX:有限 GPU 下的繁中/英文轉錄實驗

在 GTX 1050 Ti 4GB 上最佳化 WhisperX:有限 GPU 下的繁中/英文轉錄實驗 這篇紀錄的是一次「小 GPU 榨汁」實驗:不是靠頂級顯卡硬輾,而是在 GTX 1050 Ti 4GB 上,透過模型選擇、參數調整、顯存釋放與 two-pass 說話人分類,把 WhisperX 調到實務可用。 TL;DR GTX 1050 Ti 不適合跑 float16 ,這次以 int8 為主。 品質優先設定: large-v2 、 batch_size=3 、 beam_size=8 、 chunk_size=30 。 英文 10 分鐘音檔約 113.5 秒完成,約 5.3 倍即時速度。 GPU peak 約 3813 MB,約吃到 4GB 顯存的 93%。 說話人分類加入 two-pass,改善自動判斷人數錯誤的問題。 測試平台 CPU AMD Ryzen 5 5500X3D GPU NVIDIA GTX 1050 Ti 4GB 系統 Windows 主要工具 WhisperX、faster-whisper / CTranslate2、pyannote、OpenCC GTX 1050 Ti 只有 4GB 顯存,而且這張 Pascal 架構的卡在 CTranslate2 下不適合使用 float16 。 所以這次優化方向不是硬上更大的模型或更高精度,而是找出在 int8 條件下,這張卡可以穩定承受的最佳參數。 品質優先的參數組合 目前品質優先的設定如下: { "model": "large-v2", "compute_ty...