transcribee
使用高精度说话者分离技术转录 YouTube 视频与本地音视频文件,提供适合 AI 分析的结构化文本输出。
简介
Transcribee 是一款专为内容创作者、研究人员与开发者设计的自动化转录与说话者分离工具,旨在将口语内容转化为适合 LLM 处理的结构化数据。通过整合 yt-dlp 与 FFmpeg,它能从 YouTube 链接或本地音视频文件(如 mp3、mp4、wav、mkv)中提取音频,并生成带有说话者标签的纯文本稿。该工具利用 ElevenLabs 技术进行说话者识别,确保对话上下文的完整性。
-
多格式支持:直接处理 YouTube URL 或本地媒体文件(音频:mp3, m4a, wav, ogg, flac;视频:mp4, mkv, webm, mov, avi)。
-
高保真说话者分离:精确区分不同发言者,产生清晰的标记对话流,非常适合后续大语言模型(LLM)的分析。
-
多层次输出:生成 transcription.txt(标记稿)、transcription-raw.txt(纯文本)、transcription-raw.json(单词级时间戳)以及 metadata.json。
-
标准化目录结构:自动将成果保存至 ~/Documents/transcripts/{category}/{title}-{date}/ 目录下。
-
高效工作流:针对播客、访谈、录影会议及讲座录音进行优化。
-
使用注意事项:若 URL 包含 '&' 等特殊字符,请务必加上引号以防指令执行错误。
-
依赖项:需预先通过系统包管理器安装 yt-dlp 与 ffmpeg(例如:brew install yt-dlp ffmpeg)。
-
配置说明:请确保 transcribee 目录下的 .env 文件已设定 API 密钥,以启用说话者分离功能。
-
性能与限制:处理速度取决于媒体长度与系统资源;可利用原始 JSON 文件的单词时间戳进行自定义对齐或构建自动化摘要流水线。
仓库统计
- Star 数
- 4,456
- Fork 数
- 1,217
- Open Issue 数
- 7
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月30日 16:25