[AI] Whisper 語音轉文字完整教學：支援中文翻譯、SRT 字幕、自動切段與 MPS 加速

這篇教學將帶你一步步完成 Whisper 語音轉錄系統的建置，支援多語言轉換、字幕輸出、自動分段，並支援 Apple M1/M2 裝置使用 MPS 加速，適合 macOS 用戶。

🛠️ 前置準備

1. 安裝 Python 環境（建議 Python 3.10 以上）

建議使用 pyenv 管理多版本 Python：

brew install pyenv
pyenv install 3.10.13
pyenv global 3.10.13

或確認你系統已具備適當版本：

python3 --version

2. 建立虛擬環境與安裝套件

python3 -m venv whisper-env
source whisper-env/bin/activate
pip install -U pip setuptools wheel
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cpu
pip install transformers
pip install ffmpeg-python

macOS M1/M2 用戶將自動啟用 MPS 加速（使用 Metal）

3. 安裝 ffmpeg

brew install ffmpeg

▶️ 執行方式

將完整程式碼儲存為 run_whisper.py 後，在終端機執行：

python run_whisper.py

執行流程會引導你選擇語音處理模式與音訊檔案，並於處理完成後輸出：

xxx_transcribed.txt（純文字稿）
xxx.srt（字幕檔）

📄 完整程式碼

請將下方完整 Python 程式碼貼入這裡：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import os
import subprocess
import torch
import time
from datetime import timedelta
from difflib import SequenceMatcher
from concurrent.futures import ThreadPoolExecutor, as_completed
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torchaudio

# ✅ 裝置選擇：MPS or CPU
device = "mps" if torch.backends.mps.is_available() else "cpu"
device_torch = torch.device(device)
print(f"📟 使用裝置：{device.upper()}")

# 🌍 翻譯選單（已更新繁體中文說明）
print("🌐 請選擇語音處理模式：")
print("1. 自動偵測語言")
print("2. 英語")
print("3. 中文")
print("4. 轉譯為英文文檔")
mode = input("請輸入選項 (1/2/3/4)：").strip()

if mode == "2":
    task = "transcribe"
    language = "en"
elif mode == "3":
    task = "transcribe"
    language = "zh"
elif mode == "4":
    task = "translate"
    language = "en"
else:
    task = "transcribe"
    language = None  # 使用 Whisper 自動語言偵測


# 🔍 選擇音訊檔
audio_files = [f for f in os.listdir() if f.lower().endswith((".m4a", ".mp3", ".wav"))]
if not audio_files:
    print("❌ 找不到音訊檔案")
    exit()

print("🎧 可選音訊：")
for i, name in enumerate(audio_files, 1):
    print(f"{i}. {name}")
idx = int(input("請輸入要處理的編號：")) - 1
audio_path = audio_files[idx]
output_base = os.path.splitext(audio_path)[0]

# ✅ 切段參數
chunk_length = 90
overlap = 5

# 🔪 切段為重疊音檔
print("🔪 使用 ffmpeg 擷取重疊切段中...")
os.makedirs("chunks", exist_ok=True)
duration_cmd = subprocess.run(
    ["ffprobe", "-v", "error", "-show_entries", "format=duration", "-of", "default=noprint_wrappers=1:nokey=1", audio_path],
    stdout=subprocess.PIPE, stderr=subprocess.DEVNULL, text=True
)
total_duration = float(duration_cmd.stdout.strip())
segments = []
start = 0
i = 0
while start < total_duration:
    segment_path = f"chunks/chunk_{i:03d}.wav"
    segments.append((segment_path, start))
    subprocess.run([
        "ffmpeg", "-y", "-i", audio_path,
        "-ss", str(start),
        "-t", str(chunk_length),
        "-ac", "1", "-ar", "16000",
        segment_path
    ], stdout=subprocess.DEVNULL, stderr=subprocess.DEVNULL)
    start += chunk_length - overlap
    i += 1

# ✅ Whisper Processor + Model
model_id = "openai/whisper-large-v3-turbo"
processor = WhisperProcessor.from_pretrained(model_id)
model = WhisperForConditionalGeneration.from_pretrained(model_id).to(device_torch)

# ✅ 處理單段音檔
def process_segment(i, segment_path, start_offset, prev_text):
    waveform, sr = torchaudio.load(segment_path)
    proc_args = {
        "sampling_rate": sr,
        "return_tensors": "pt",
        "task": task
    }
    if language is not None:
        proc_args["language"] = language

    input_data = processor(waveform[0], **proc_args)
    input_features = input_data.input_features.to(device_torch)
    attention_mask = input_data.get("attention_mask")
    if attention_mask is not None:
        attention_mask = attention_mask.to(device_torch)

    generated_ids = model.generate(
        input_features=input_features,
        attention_mask=attention_mask
    )

    text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0].strip()

    lang = language if language else "auto"
    start_ts = start_offset
    end_ts = start_offset + chunk_length

    def remove_overlap(a, b):
        matcher = SequenceMatcher(None, a, b)
        match = matcher.find_longest_match(0, len(a), 0, len(b))
        if match.size > 10 and match.b > 0:
            return b[match.b + match.size:].strip()
        return b

    clean_text = remove_overlap(prev_text, text)
    return (i, start_ts, end_ts, clean_text, lang, text)

# 🧠 並行處理段落
print(f"🧠 開始轉錄，共 {len(segments)} 段")
start_time = time.time()
results = []
prev_text = ""

with ThreadPoolExecutor(max_workers=2 if device == "mps" else os.cpu_count()) as executor:
    futures = []
    for i, (segment_path, start_offset) in enumerate(segments):
        futures.append(executor.submit(process_segment, i, segment_path, start_offset, prev_text))
    for future in as_completed(futures):
        results.append(future.result())

# 排序與去重
results.sort(key=lambda x: x[0])
final_segments = []
for i, start_ts, end_ts, clean_text, lang, full_text in results:
    if clean_text:
        final_segments.append((start_ts, end_ts, clean_text, lang))
        prev_text = full_text

# ✅ 輸出 TXT
with open(f"{output_base}_transcribed.txt", "w", encoding="utf-8") as f:
    for i, (start, end, text, lang) in enumerate(final_segments, 1):
        f.write(f"--- 第 {i} 段 [{lang}] ---\n{text}\n\n")

# ✅ 輸出 SRT
def format_srt_time(seconds):
    t = timedelta(seconds=int(seconds))
    ms = int((seconds - int(seconds)) * 1000)
    return f"{str(t).zfill(8).replace('.', ',')},{ms:03d}"

with open(f"{output_base}.srt", "w", encoding="utf-8") as f:
    for i, (start, end, text, _) in enumerate(final_segments, 1):
        f.write(f"{i}\n")
        f.write(f"{format_srt_time(start)} --> {format_srt_time(end)}\n")
        f.write(f"{text}\n\n")

# 🧹 清理 chunks
for f in os.listdir("chunks"):
    os.remove(os.path.join("chunks", f))
os.rmdir("chunks")

print(f"\n✅ 已完成！輸出：\n- {output_base}_transcribed.txt\n- {output_base}.srt")
print(f"⏱ 總耗時：{timedelta(seconds=int(time.time() - start_time))}")

你也可以建立一個 whisper.command（或 whisper.sh）檔案，直接透過雙擊執行：

#!/bin/zsh

export PYENV_ROOT="$HOME/.pyenv"
export PATH="$PYENV_ROOT/bin:$PATH"
eval "$(/opt/homebrew/bin/brew shellenv)"
eval "$(pyenv init --path)"
eval "$(pyenv init -)"
eval "$(pyenv virtualenv-init -)"

# 使用 pyenv 虛擬環境 whisper-env
pyenv activate whisper-env

cd /Users/cindy/Documents/whisper
python whisper_transcribe.py

echo ""
read -k 1 -s "?✅ 執行完成，按任意鍵關閉..."

你可以將此檔案儲存為 whisper.command 並給予執行權限：

chmod +x whisper.command

之後即可直接點擊執行。

📁 範例輸出

本範例為使用 MacBook Air M2（8GB RAM） 處理一段約 47 分鐘 的會議錄音，並產出逐字稿與字幕檔案。轉錄過程約耗時 3 分 8 秒，MPS 加速模式啟用成功。

🛠️ 常見問題 FAQ

Q1. 為什麼 m4a 格式讀不到？

請確認 ffmpeg 已安裝，或手動轉檔為 wav：

ffmpeg -i input.m4a -ac 1 -ar 16000 output.wav

Q2. 可以加上說話者辨識嗎？

這版本尚未整合 Speaker Diarization，但可結合 WhisperX 或 pyannote.audio 延伸。

Q3. 可以轉成繁體中文嗎？

可以，在輸出 .txt 後使用 OpenCC 或人工翻譯工具轉換簡體為繁體。

Q4. 轉檔後有漏段落?(2025/06/09 update)

轉換過程因為RAM容量不足被系統強制結束掉該段落,尤其是我手上的機器RAM只有8G,這個問題不會特別報錯,回頭審查錄音內容才發現這個問題.

解決方式是在切斷檔案的長度縮更小,大概30s一段應該可以避免掉這個問題.

如果你覺得這篇文章對你有幫助，歡迎收藏或留言交流！

撰寫日期：2025-04-16｜作者：KingChang with ChatGPT

[婚禮] 彭園婚宴會館-台北館華麗宴會廳

10月 06, 2019

開始計畫要結婚的時候，在網路上查詢及親朋好友推薦後選定幾間婚宴會館預約，後來發現預約太慢了都直接殺到現場確認場地XD 所以建議比較急著決定要下訂婚宴會館的新人們直接到婚宴會館就可以囉～剛好第一家看場地的婚宴會館就是彭園台北館。坐電梯一到五樓印入眼簾的就是櫃台與接洽區，接洽區的空間較小，一對新人加上兩個家人就差不多了！不過這樣的人數應該也很夠了XD 接待我們的接待員是 Michelle，她介紹的非常詳細，讓我們對整個婚禮流程的概念比較清楚。簽約下訂的時候也非常仔細地帶我們看過注意事項才讓我們確認簽名，讓我們感覺非常舒服，不會覺得接待員在等我們看完合約內容簽名。宴會廳的部分由於我們桌數需求，適合我們的宴會廳有兩廳：一、華麗宴會廳二、典雅浪漫廳這兩廳送餐點的動線跟進場的動線是分開的，新娘不會因為進場跟出菜的路線一樣而互相干擾！需要特別注意的是典雅浪漫廳在六樓，但是這一廳是需要坐電梯到五樓之後在走樓梯上去！若是有行動不便的賓客就需要斟酌一下！新娘房的部分由於訂婚、結婚儀式都是在婚宴會館舉行，新娘房就有三重身分～除了是新娘準備休息室之外，還是代表著男方家及女方家，那麼新娘房也是我們重視的一部分啦！華麗宴會廳的新娘房整體十分明亮，空間來說也不小。有獨立的廁所及更衣室，如果新娘需要更換禮服時可以不需要把親友請出休息室。典雅浪漫廳的新娘房有兩個選擇，分別在五樓跟六樓。六樓的新娘房沒有獨立的廁所；五樓的新娘房有獨立的廁所，但是空間比較小。菜色的部分菜色的部分是新娘媽媽最喜歡的XD 有多種婚宴餐單價位，比較需要注意的是每個場地都有低消，如果桌數少那麼就沒辦法選到太低的菜單價位！這是需要與接待人員確認的事項之一。放上幾樣菜色圖片，菜色的部分都可以調整，可以到官網參考一下～附上官網菜單連結：婚宴菜單交通的部分大眾運輸公車站(市立工農站)及捷運站(板南線-永春站)都離彭園台北館非常近，以坐大眾運輸為主的賓客是非常方便的！甚至搭高鐵、台鐵都非常方便，只要搭到南港站轉轉乘捷運即可！停車位婚宴會館大樓設有地下停車場，以及附近松農附設地下停車場與中油大樓附設地下停車場。停車位數量是非常...

閱讀完整內容

搜尋此網誌

King & Cindy 生活日記