生产力
openai-whisper-api avatar

openai-whisper-api

在 OpenClaw 中使用 OpenAI Whisper API 将音频文件直接转换为文字。

简介

此 OpenClaw 技能透过 /v1/audio/transcriptions 端点使用业界标准的 OpenAI Whisper 模型,提供流畅的语音转文字功能。它专为个人 AI 助理设计,让使用者能直接从本地终端环境将各种音频格式转换为易读的文字稿。对于需要记录会议、整理语音笔记,或在私有、自托管的 AI 工作流程中处理媒体内容的使用者来说,这是一个理想的工具。透过支援可设定的基础 URL,它为偏好透过本地网关、OpenAI 相容代理或自订 API 端点传输流量的使用者保持了高度的弹性。

  • 与 OpenAI Whisper-1 模型完全整合,实现高准确度的语音转文字转换。

  • 支援多种音频格式,包括 .m4a、.ogg 及常见的录音副档名。

  • 可设定的输出选项,允许使用者产生纯文字档或结构化的 JSON 输出,以便进行后续的程式处理。

  • 支援语音识别与强制语言设定,能显著提升非英语内容的转录准确度。

  • 支援自订提示词以增加上下文感知,使用者可指定讲者姓名或技术词汇来优化模型输出。

  • 透过环境变数或标准 OpenClaw 设定档进行集中式的验证管理。

  • 开始使用时,请执行转录指令码并输入您的本地音频档案路径:{baseDir}/scripts/transcribe.sh /path/to/file。

  • 请确保 OPENAI_API_KEY 已正确设定在 ~/.openclaw/openclaw.json 设定档中或作为系统环境变数。

  • 对于进阶使用场景,可利用 --json 旗标在取得逐字稿的同时获取诠释资料,这对自动化资料处理流程非常有帮助。

  • 若使用者为了隐私需求而运行本地代理或网关服务,可透过设定 OPENAI_BASE_URL 参数来重新导向请求。

  • 本工具专为单一使用者与本地优先的操作模式设计,确保您的音频转录工作流程能与 OpenClaw 个人助理设定高效且紧密地整合。

仓库统计

Star 数
366,006
Fork 数
75,041
Open Issue 数
6,962
主要语言
TypeScript
默认分支
main
同步状态
空闲
最近同步时间
2026年4月29日 06:02
在 GitHub 查看