工程開發
transcription
基於 OpenAI Whisper 的專業音訊/影片轉錄工具。提供模型選擇、時間軸同步、說話者分離 (diarization) 及批次處理功能,優化影音工作流程。
簡介
此技能提供了一個穩健的框架,利用 OpenAI Whisper 執行高品質的語音轉文字轉錄。專為需要將自動轉錄、字幕生成和說話者識別整合到媒體工作流程中的開發者與內容創作者所設計。透過支援多種安裝方式,包括標準的 Python OpenAI Whisper、高效能 C++ 的 whisper.cpp 以及 GPU 加速的 Insanely Fast Whisper,使用者能在速度、硬體限制與準確度要求之間取得最佳平衡。
本技能涵蓋了媒體準備的完整流程,例如使用 ffmpeg 進行最佳化的音訊擷取(如轉換為 16kHz 單聲道 WAV),確保模型輸入的高品質。此外,它還提供後處理的高階模式,包括將 Whisper 的 JSON 輸出轉換為專業影音剪輯軟體(如 Final Cut Pro)所需的影格精準時間軸,並利用 pyannote.audio 進行說話者分離 (diarization),以識別多說話者環境下的不同聲音。
- 多模型支援:根據 VRAM 容量與精確度需求,選擇 tiny、base、small、medium 或 large-v3 模型。
- 格式彈性:生成符合工業標準的字幕格式,包括 SRT、VTT 以及包含單字級時間戳的詳細 JSON。
- 音訊工程:包含精確的 ffmpeg 配方,用於降噪、高通/低通濾波及聲道正規化。
- 工作流程自動化:提供預先配置的 Bash 腳本,用於批次處理整個影音資料夾。
- 效能優化:針對 GPU 加速 (CUDA)、上下文提示詞 (initial prompt) 以及長篇內容的切塊處理策略提供建議。
- 輸入:透過自動化擷取支援原始音訊檔 (mp3, wav) 與影片容器 (mp4, mov, avi)。
- 輸出:帶時間碼的文字檔、JSON 中繼資料與分段說話者日誌。
- 限制:需要本地計算資源(建議使用大模型時配置 VRAM)以及特定的開發環境設定(Python/C++ 依賴)。
倉庫統計
- Star 數
- 255
- Fork 數
- 31
- Open Issue 數
- 7
- 主要語言
- TypeScript
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月29日 上午08:08