工程開發
transcription avatar

transcription

使用 OpenAI Whisper 進行生產級音訊/視訊轉錄。涵蓋模型選擇、時間同步 (SRT/VTT/JSON)、透過 pyannote 進行說話者分離,以及媒體工作流程的批次處理。

簡介

此技能為開發人員、內容創作者和媒體工程師提供了一個使用 OpenAI Whisper 將媒體資產轉換為文字的專業級框架。透過支援多種安裝方式(包括標準 Python 套件、透過 whisper.cpp 的高效能 C++ 以及使用 Insanely Fast Whisper 的 GPU 加速執行),該技能可適應各種基礎設施需求。此技能允許使用者處理複雜的轉錄任務,例如使用 pyannote.audio 進行多人說話者分離、針對 Final Cut Pro 等剪輯軟體的幀級精確時間同步,以及針對大型視訊庫的批次處理。

  • 多引擎支援:在 OpenAI Whisper (Python)、whisper.cpp (C++) 和 Insanely Fast Whisper (GPU) 之間進行選擇,以滿足不同的效能需求。

  • 進階匯出格式:生成用於字幕的標準 SRT 和 WebVTT,或用於程式設計的包含詞級時間戳記的結構化 JSON。

  • 說話者分離:整合支援 pyannote.audio,可識別並標記多人對話內容中的個別說話者。

  • 工作流程最佳化:預處理工具包括基於 FFmpeg 的音訊提取、使用高通和低通濾波器的降噪處理,以及用於幀速率一致性的 FFprobe 分析。

  • 批次處理:提供自動化腳本來轉錄整個媒體檔案目錄,包含暫存檔清理和輸出管理。

  • 生產級模式:包含關於模型選擇的指導——從用於快速預覽的「tiny」模型到用於最終高精度生產交付的「large-v3」模型。

  • 建議輸入:為了獲得最佳效果,請使用 FFmpeg 將音訊提取為單聲道 16kHz WAV (pcm_s16le) 格式。

  • 語境輔助:透過提供包含特定領域詞彙或上下文描述的初始提示詞,可增強準確性。

  • 擴展性:使用針對 GPU 硬體的 CUDA 裝置旗標等環境最佳化設定,可顯著縮短長時間內容的處理時間。

  • 限制:大型模型(如 large-v3)需要較大的 VRAM(約 10GB);請確保硬體滿足所選模型大小的最低需求。

  • 檔案相容性:透過 FFmpeg 整合支援所有標準視訊和音訊容器(MP4、MOV、AVI、MP3、WAV)。

倉庫統計

Star 數
255
Fork 數
31
Open Issue 數
7
主要語言
TypeScript
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月29日 上午01:39
在 GitHub 查看