King & Cindy 生活日記

發表文章

目前顯示的是 6月, 2026的文章

[AI] WhisperX：有限 GPU 下的繁中/英文轉錄實驗

6月 23, 2026

在 GTX 1050 Ti 4GB 上最佳化 WhisperX：有限 GPU 下的繁中／英文轉錄實驗這篇紀錄的是一次「小 GPU 榨汁」實驗：不是靠頂級顯卡硬輾，而是在 GTX 1050 Ti 4GB 上，透過模型選擇、參數調整、顯存釋放與 two-pass 說話人分類，把 WhisperX 調到實務可用。 TL;DR GTX 1050 Ti 不適合跑 float16 ，這次以 int8 為主。品質優先設定： large-v2 、 batch_size=3 、 beam_size=8 、 chunk_size=30 。英文 10 分鐘音檔約 113.5 秒完成，約 5.3 倍即時速度。 GPU peak 約 3813 MB，約吃到 4GB 顯存的 93%。說話人分類加入 two-pass，改善自動判斷人數錯誤的問題。測試平台 CPU AMD Ryzen 5 5500X3D GPU NVIDIA GTX 1050 Ti 4GB 系統 Windows 主要工具 WhisperX、faster-whisper / CTranslate2、pyannote、OpenCC GTX 1050 Ti 只有 4GB 顯存，而且這張 Pascal 架構的卡在 CTranslate2 下不適合使用 float16 。所以這次優化方向不是硬上更大的模型或更高精度，而是找出在 int8 條件下，這張卡可以穩定承受的最佳參數。品質優先的參數組合目前品質優先的設定如下： { "model": "large-v2", "compute_ty...

閱讀完整內容