工程开发
transcription avatar

transcription

基于 OpenAI Whisper 的专业音频/视频转录工具。提供模型选择、时间轴同步、说话者分离 (diarization) 及批处理功能,优化影音工作流程。

简介

此技能提供了一个稳健的框架,利用 OpenAI Whisper 执行高质量的语音转文字转录。专为需要将自动转录、字幕生成和说话者识别集成到媒体工作流程中的开发者与内容创作者所设计。通过支持多种安装方式,包括标准的 Python OpenAI Whisper、高效能 C++ 的 whisper.cpp 以及 GPU 加速的 Insanely Fast Whisper,用户能在速度、硬件限制与准确度要求之间取得最佳平衡。

本技能涵盖了媒体准备的完整流程,例如使用 ffmpeg 进行最佳化的音频提取(如转换为 16kHz 单声道 WAV),确保模型输入的高质量。此外,它还提供后处理的高级模式,包括将 Whisper 的 JSON 输出转换为专业影音剪辑软件(如 Final Cut Pro)所需的帧精准时间轴,并利用 pyannote.audio 进行说话者分离 (diarization),以识别多说话者环境下的不同声音。

  • 多模型支持:根据 VRAM 容量与精确度需求,选择 tiny、base、small、medium 或 large-v3 模型。
  • 格式弹性:生成符合工业标准的字幕格式,包括 SRT、VTT 以及包含单字级时间戳的详细 JSON。
  • 音频工程:包含精确的 ffmpeg 配方,用于降噪、高通/低通滤波及声道标准化。
  • 工作流程自动化:提供预先配置的 Bash 脚本,用于批处理整个音视频文件夹。
  • 性能优化:针对 GPU 加速 (CUDA)、上下文提示词 (initial prompt) 以及长篇内容的切块处理策略提供建议。
  • 输入:通过自动化提取支持原始音频文件 (mp3, wav) 与视频容器 (mp4, mov, avi)。
  • 输出:带时间码的文本文件、JSON 元数据与分段说话者日志。
  • 限制:需要本地计算资源(建议使用大模型时配置 VRAM)以及特定的开发环境设置(Python/C++ 依赖)。

仓库统计

Star 数
255
Fork 数
31
Open Issue 数
7
主要语言
TypeScript
默认分支
main
同步状态
空闲
最近同步时间
2026年4月29日 08:08
在 GitHub 查看