transcription
使用 OpenAI Whisper 进行生产级音频/视频转录。涵盖模型选择、时间同步 (SRT/VTT/JSON)、通过 pyannote 进行说话者分离,以及媒体工作流程的批量处理。
简介
此技能为开发人员、内容创作者和媒体工程师提供了一个使用 OpenAI Whisper 将媒体资产转换为文本的专业级框架。通过支持多种安装方式(包括标准 Python 包、通过 whisper.cpp 的高性能 C++ 以及使用 Insanely Fast Whisper 的 GPU 加速执行),该技能可适应各种基础设施需求。此技能允许用户处理复杂的转录任务,例如使用 pyannote.audio 进行多人说话者分离、针对 Final Cut Pro 等剪辑软件的帧级精确时间同步,以及针对大型视频库的批量处理。
-
多引擎支持:在 OpenAI Whisper (Python)、whisper.cpp (C++) 和 Insanely Fast Whisper (GPU) 之间进行选择,以满足不同的性能需求。
-
高级导出格式:生成用于字幕的标准 SRT 和 WebVTT,或用于程序设计的包含词级时间戳的结构化 JSON。
-
说话者分离:集成支持 pyannote.audio,可识别并标记多人对话内容中的个别说话者。
-
工作流程优化:预处理工具包括基于 FFmpeg 的音频提取、使用高通和低通滤波器的降噪处理,以及用于帧速率一致性的 FFprobe 分析。
-
批量处理:提供自动化脚本来转录整个媒体文件目录,包含临时文件清理和输出管理。
-
生产级模式:包含关于模型选择的指导——从用于快速预览的「tiny」模型到用于最终高精度生产交付的「large-v3」模型。
-
建议输入:为了获得最佳效果,请使用 FFmpeg 将音频提取为单声道 16kHz WAV (pcm_s16le) 格式。
-
语境辅助:通过提供包含特定领域词汇或上下文描述的初始提示词,可增强准确性。
-
扩展性:使用针对 GPU 硬件的 CUDA 设备标志等环境优化设置,可显著缩短长时间内容的处理时间。
-
限制:大型模型(如 large-v3)需要较大的 VRAM(约 10GB);请确保硬件满足所选模型大小的最低需求。
-
文件兼容性:通过 FFmpeg 集成支持所有标准视频和音频容器(MP4、MOV、AVI、MP3、WAV)。
仓库统计
- Star 数
- 255
- Fork 数
- 31
- Open Issue 数
- 7
- 主要语言
- TypeScript
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月29日 01:39