transcription
使用 OpenAI Whisper 進行生產級音訊/視訊轉錄。涵蓋模型選擇、時間同步 (SRT/VTT/JSON)、透過 pyannote 進行說話者分離,以及媒體工作流程的批次處理。
簡介
此技能為開發人員、內容創作者和媒體工程師提供了一個使用 OpenAI Whisper 將媒體資產轉換為文字的專業級框架。透過支援多種安裝方式(包括標準 Python 套件、透過 whisper.cpp 的高效能 C++ 以及使用 Insanely Fast Whisper 的 GPU 加速執行),該技能可適應各種基礎設施需求。此技能允許使用者處理複雜的轉錄任務,例如使用 pyannote.audio 進行多人說話者分離、針對 Final Cut Pro 等剪輯軟體的幀級精確時間同步,以及針對大型視訊庫的批次處理。
-
多引擎支援:在 OpenAI Whisper (Python)、whisper.cpp (C++) 和 Insanely Fast Whisper (GPU) 之間進行選擇,以滿足不同的效能需求。
-
進階匯出格式:生成用於字幕的標準 SRT 和 WebVTT,或用於程式設計的包含詞級時間戳記的結構化 JSON。
-
說話者分離:整合支援 pyannote.audio,可識別並標記多人對話內容中的個別說話者。
-
工作流程最佳化:預處理工具包括基於 FFmpeg 的音訊提取、使用高通和低通濾波器的降噪處理,以及用於幀速率一致性的 FFprobe 分析。
-
批次處理:提供自動化腳本來轉錄整個媒體檔案目錄,包含暫存檔清理和輸出管理。
-
生產級模式:包含關於模型選擇的指導——從用於快速預覽的「tiny」模型到用於最終高精度生產交付的「large-v3」模型。
-
建議輸入:為了獲得最佳效果,請使用 FFmpeg 將音訊提取為單聲道 16kHz WAV (pcm_s16le) 格式。
-
語境輔助:透過提供包含特定領域詞彙或上下文描述的初始提示詞,可增強準確性。
-
擴展性:使用針對 GPU 硬體的 CUDA 裝置旗標等環境最佳化設定,可顯著縮短長時間內容的處理時間。
-
限制:大型模型(如 large-v3)需要較大的 VRAM(約 10GB);請確保硬體滿足所選模型大小的最低需求。
-
檔案相容性:透過 FFmpeg 整合支援所有標準視訊和音訊容器(MP4、MOV、AVI、MP3、WAV)。
倉庫統計
- Star 數
- 255
- Fork 數
- 31
- Open Issue 數
- 7
- 主要語言
- TypeScript
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月29日 上午01:39