简介

Transcribee 是一款专为内容创作者、研究人员与开发者设计的自动化转录与说话者分离工具，旨在将口语内容转化为适合 LLM 处理的结构化数据。通过整合 yt-dlp 与 FFmpeg，它能从 YouTube 链接或本地音视频文件（如 mp3、mp4、wav、mkv）中提取音频，并生成带有说话者标签的纯文本稿。该工具利用 ElevenLabs 技术进行说话者识别，确保对话上下文的完整性。

多格式支持：直接处理 YouTube URL 或本地媒体文件（音频：mp3, m4a, wav, ogg, flac；视频：mp4, mkv, webm, mov, avi）。
高保真说话者分离：精确区分不同发言者，产生清晰的标记对话流，非常适合后续大语言模型（LLM）的分析。
多层次输出：生成 transcription.txt（标记稿）、transcription-raw.txt（纯文本）、transcription-raw.json（单词级时间戳）以及 metadata.json。
标准化目录结构：自动将成果保存至 ~/Documents/transcripts/{category}/{title}-{date}/ 目录下。
高效工作流：针对播客、访谈、录影会议及讲座录音进行优化。
使用注意事项：若 URL 包含 '&' 等特殊字符，请务必加上引号以防指令执行错误。
依赖项：需预先通过系统包管理器安装 yt-dlp 与 ffmpeg（例如：brew install yt-dlp ffmpeg）。
配置说明：请确保 transcribee 目录下的 .env 文件已设定 API 密钥，以启用说话者分离功能。
性能与限制：处理速度取决于媒体长度与系统资源；可利用原始 JSON 文件的单词时间戳进行自定义对齐或构建自动化摘要流水线。

创业课程

在线课程

实体课程

transcribee

简介

仓库统计