簡介

Transcribee 是一款專為內容創作者、研究人員與開發者設計的自動化轉錄與說話者分離工具，旨在將口語內容轉化為適合 LLM 處理的結構化數據。透過整合 yt-dlp 與 FFmpeg，它能從 YouTube 連結或本地影音檔案（如 mp3、mp4、wav、mkv）中提取音訊，並產生帶有說話者標籤的純文字稿。該工具利用 ElevenLabs 技術進行說話者識別，確保對話上下文的完整性。

多格式支援：直接處理 YouTube URL 或本地媒體檔案（音訊：mp3, m4a, wav, ogg, flac；影片：mp4, mkv, webm, mov, avi）。
高保真說話者分離：精確區分不同發言者，產生清晰的標記對話流，非常適合後續大語言模型（LLM）的分析。
多層次輸出：生成 transcription.txt（標記稿）、transcription-raw.txt（純文字）、transcription-raw.json（單字級時間戳）以及 metadata.json。
標準化目錄結構：自動將成果保存至 ~/Documents/transcripts/{category}/{title}-{date}/ 目錄下。
高效工作流：針對播客、訪談、錄影會議及講座錄音進行最佳化。
使用注意事項：若 URL 包含 '&' 等特殊字元，請務必加上引號以防指令執行錯誤。
依賴項：需預先透過系統套件管理器安裝 yt-dlp 與 ffmpeg（例如：brew install yt-dlp ffmpeg）。
配置說明：請確保 transcribee 目錄下的 .env 檔案已設定 API 金鑰，以啟用說話者分離功能。
效能與限制：處理速度取決於媒體長度與系統資源；可利用原始 JSON 檔的單字時間戳進行自訂對齊或構建自動化摘要管線。

創業課程

網上課程

實體課程

transcribee

簡介

倉庫統計