transcribee
使用高精度說話者分離技術轉錄 YouTube 影片與本地影音檔案,提供適合 AI 分析的結構化文字輸出。
簡介
Transcribee 是一款專為內容創作者、研究人員與開發者設計的自動化轉錄與說話者分離工具,旨在將口語內容轉化為適合 LLM 處理的結構化數據。透過整合 yt-dlp 與 FFmpeg,它能從 YouTube 連結或本地影音檔案(如 mp3、mp4、wav、mkv)中提取音訊,並產生帶有說話者標籤的純文字稿。該工具利用 ElevenLabs 技術進行說話者識別,確保對話上下文的完整性。
-
多格式支援:直接處理 YouTube URL 或本地媒體檔案(音訊:mp3, m4a, wav, ogg, flac;影片:mp4, mkv, webm, mov, avi)。
-
高保真說話者分離:精確區分不同發言者,產生清晰的標記對話流,非常適合後續大語言模型(LLM)的分析。
-
多層次輸出:生成 transcription.txt(標記稿)、transcription-raw.txt(純文字)、transcription-raw.json(單字級時間戳)以及 metadata.json。
-
標準化目錄結構:自動將成果保存至 ~/Documents/transcripts/{category}/{title}-{date}/ 目錄下。
-
高效工作流:針對播客、訪談、錄影會議及講座錄音進行最佳化。
-
使用注意事項:若 URL 包含 '&' 等特殊字元,請務必加上引號以防指令執行錯誤。
-
依賴項:需預先透過系統套件管理器安裝 yt-dlp 與 ffmpeg(例如:brew install yt-dlp ffmpeg)。
-
配置說明:請確保 transcribee 目錄下的 .env 檔案已設定 API 金鑰,以啟用說話者分離功能。
-
效能與限制:處理速度取決於媒體長度與系統資源;可利用原始 JSON 檔的單字時間戳進行自訂對齊或構建自動化摘要管線。
倉庫統計
- Star 數
- 4,456
- Fork 數
- 1,217
- Open Issue 數
- 7
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月30日 下午04:25