生产力
openai-whisper-api avatar

openai-whisper-api

使用 OpenAI Whisper API 将音频文件转录为文本,供您的 OpenClaw 助理使用。

简介

openai-whisper-api 技能将 OpenAI 先进的语音转文字功能直接集成至您的 OpenClaw 工作流程中。此技能专为依赖语音备忘录、录音或语音消息的用户设计,提供了一种可靠且快速的方法将口述内容转换为可操作的文本。通过 OpenAI 音频转录 API 使用 Whisper 模型,确保了对多种语言和音频格式的高质量识别能力。这对于需要整理访谈的科研人员、记录会议纪要的专业人士,或是任何希望提升助理语音处理能力的用户来说,都是理想的工具。该技能高度可配置,支持自定义模型、语言提示及基于提示词 (prompt) 的语境输入,以获得更准确的转录效果。

  • 完整支持 OpenAI 所接受的标准音频格式,包括 .m4a、.ogg 等。

  • 与 OpenClaw 设置直接集成,简化 API 密钥管理。

  • 灵活指定 Whisper 模型(如 whisper-1),以平衡性能与转录质量。

  • 支持传入特定语言参数,以提升非英语情境下的识别率。

  • 通过 prompt 标志支持具备语境感知的转录,对于包含讲者姓名或特定专业术语的情况特别有效。

  • 提供多样化的输出选项,可选择原始文本或结构化的 JSON 格式,便于后续数据处理。

  • 请确保在 ~/.openclaw/openclaw.json 中正确设置 OPENAI_API_KEY 以进行验证。

  • 您可以通过设置 OPENAI_BASE_URL 变量来使用与 OpenAI 兼容的代理服务器或本地网关,支持离线或私有云部署需求。

  • 为了获得最佳效果,请确保音频文件清晰;虽然 Whisper 对背景噪音具有强大的鲁棒性,但严重的失真仍可能影响转录精度。

  • 基于脚本的执行模式,使得此技能可以集成至更广泛的 Shell 自动化链或批处理任务中。

  • 处理敏感信息的用户应确保其终端点设置符合数据传输的安全性要求。

仓库统计

Star 数
365,626
Fork 数
74,932
Open Issue 数
7,000
主要语言
TypeScript
默认分支
main
同步状态
空闲
最近同步时间
2026年4月28日 11:37
在 GitHub 查看