生产力
transcribee avatar

transcribee

使用高精度说话者分离技术转录 YouTube 视频与本地音视频文件,提供适合 AI 分析的结构化文本输出。

简介

Transcribee 是一款专为内容创作者、研究人员与开发者设计的自动化转录与说话者分离工具,旨在将口语内容转化为适合 LLM 处理的结构化数据。通过整合 yt-dlp 与 FFmpeg,它能从 YouTube 链接或本地音视频文件(如 mp3、mp4、wav、mkv)中提取音频,并生成带有说话者标签的纯文本稿。该工具利用 ElevenLabs 技术进行说话者识别,确保对话上下文的完整性。

  • 多格式支持:直接处理 YouTube URL 或本地媒体文件(音频:mp3, m4a, wav, ogg, flac;视频:mp4, mkv, webm, mov, avi)。

  • 高保真说话者分离:精确区分不同发言者,产生清晰的标记对话流,非常适合后续大语言模型(LLM)的分析。

  • 多层次输出:生成 transcription.txt(标记稿)、transcription-raw.txt(纯文本)、transcription-raw.json(单词级时间戳)以及 metadata.json。

  • 标准化目录结构:自动将成果保存至 ~/Documents/transcripts/{category}/{title}-{date}/ 目录下。

  • 高效工作流:针对播客、访谈、录影会议及讲座录音进行优化。

  • 使用注意事项:若 URL 包含 '&' 等特殊字符,请务必加上引号以防指令执行错误。

  • 依赖项:需预先通过系统包管理器安装 yt-dlp 与 ffmpeg(例如:brew install yt-dlp ffmpeg)。

  • 配置说明:请确保 transcribee 目录下的 .env 文件已设定 API 密钥,以启用说话者分离功能。

  • 性能与限制:处理速度取决于媒体长度与系统资源;可利用原始 JSON 文件的单词时间戳进行自定义对齐或构建自动化摘要流水线。

仓库统计

Star 数
4,456
Fork 数
1,217
Open Issue 数
7
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年4月30日 16:25
在 GitHub 查看