工程开发
transcription avatar

transcription

使用 OpenAI Whisper 进行生产级音频/视频转录。涵盖模型选择、时间同步 (SRT/VTT/JSON)、通过 pyannote 进行说话者分离,以及媒体工作流程的批量处理。

简介

此技能为开发人员、内容创作者和媒体工程师提供了一个使用 OpenAI Whisper 将媒体资产转换为文本的专业级框架。通过支持多种安装方式(包括标准 Python 包、通过 whisper.cpp 的高性能 C++ 以及使用 Insanely Fast Whisper 的 GPU 加速执行),该技能可适应各种基础设施需求。此技能允许用户处理复杂的转录任务,例如使用 pyannote.audio 进行多人说话者分离、针对 Final Cut Pro 等剪辑软件的帧级精确时间同步,以及针对大型视频库的批量处理。

  • 多引擎支持:在 OpenAI Whisper (Python)、whisper.cpp (C++) 和 Insanely Fast Whisper (GPU) 之间进行选择,以满足不同的性能需求。

  • 高级导出格式:生成用于字幕的标准 SRT 和 WebVTT,或用于程序设计的包含词级时间戳的结构化 JSON。

  • 说话者分离:集成支持 pyannote.audio,可识别并标记多人对话内容中的个别说话者。

  • 工作流程优化:预处理工具包括基于 FFmpeg 的音频提取、使用高通和低通滤波器的降噪处理,以及用于帧速率一致性的 FFprobe 分析。

  • 批量处理:提供自动化脚本来转录整个媒体文件目录,包含临时文件清理和输出管理。

  • 生产级模式:包含关于模型选择的指导——从用于快速预览的「tiny」模型到用于最终高精度生产交付的「large-v3」模型。

  • 建议输入:为了获得最佳效果,请使用 FFmpeg 将音频提取为单声道 16kHz WAV (pcm_s16le) 格式。

  • 语境辅助:通过提供包含特定领域词汇或上下文描述的初始提示词,可增强准确性。

  • 扩展性:使用针对 GPU 硬件的 CUDA 设备标志等环境优化设置,可显著缩短长时间内容的处理时间。

  • 限制:大型模型(如 large-v3)需要较大的 VRAM(约 10GB);请确保硬件满足所选模型大小的最低需求。

  • 文件兼容性:通过 FFmpeg 集成支持所有标准视频和音频容器(MP4、MOV、AVI、MP3、WAV)。

仓库统计

Star 数
255
Fork 数
31
Open Issue 数
7
主要语言
TypeScript
默认分支
main
同步状态
空闲
最近同步时间
2026年4月29日 01:39
在 GitHub 查看