生產力
transcribee avatar

transcribee

使用高精度說話者分離技術轉錄 YouTube 影片與本地影音檔案,提供適合 AI 分析的結構化文字輸出。

簡介

Transcribee 是一款專為內容創作者、研究人員與開發者設計的自動化轉錄與說話者分離工具,旨在將口語內容轉化為適合 LLM 處理的結構化數據。透過整合 yt-dlp 與 FFmpeg,它能從 YouTube 連結或本地影音檔案(如 mp3、mp4、wav、mkv)中提取音訊,並產生帶有說話者標籤的純文字稿。該工具利用 ElevenLabs 技術進行說話者識別,確保對話上下文的完整性。

  • 多格式支援:直接處理 YouTube URL 或本地媒體檔案(音訊:mp3, m4a, wav, ogg, flac;影片:mp4, mkv, webm, mov, avi)。

  • 高保真說話者分離:精確區分不同發言者,產生清晰的標記對話流,非常適合後續大語言模型(LLM)的分析。

  • 多層次輸出:生成 transcription.txt(標記稿)、transcription-raw.txt(純文字)、transcription-raw.json(單字級時間戳)以及 metadata.json。

  • 標準化目錄結構:自動將成果保存至 ~/Documents/transcripts/{category}/{title}-{date}/ 目錄下。

  • 高效工作流:針對播客、訪談、錄影會議及講座錄音進行最佳化。

  • 使用注意事項:若 URL 包含 '&' 等特殊字元,請務必加上引號以防指令執行錯誤。

  • 依賴項:需預先透過系統套件管理器安裝 yt-dlp 與 ffmpeg(例如:brew install yt-dlp ffmpeg)。

  • 配置說明:請確保 transcribee 目錄下的 .env 檔案已設定 API 金鑰,以啟用說話者分離功能。

  • 效能與限制:處理速度取決於媒體長度與系統資源;可利用原始 JSON 檔的單字時間戳進行自訂對齊或構建自動化摘要管線。

倉庫統計

Star 數
4,456
Fork 數
1,217
Open Issue 數
7
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月30日 下午04:25
在 GitHub 查看