生产力
openai-whisper
使用 OpenAI Whisper CLI 进行本地语音转文字转录,无需外部 API 密钥即可提供私密且高准确度的音频处理。
简介
openai-whisper 技能让 OpenClaw 用户能够进行高质量的本地语音转文字 (STT) 转录。通过直接在本地机器上利用 OpenAI Whisper 模型的功能,此技能确保您的敏感音频文件、会议记录或个人语音笔记永远不会离开设备进行处理。它消除了对基于云端的语音转文字服务的依赖,绕过了 API 密钥需求和订阅成本,同时保持对数据隐私的完全控制。
-
本地优先转录:使用本地硬件资源在离线状态下执行所有音频处理。
-
模型选择灵活性:支持多种 Whisper 模型大小(如 turbo、medium),可根据硬件性能平衡处理速度与转录准确度。
-
格式多样性:输出标准格式(如 TXT 和 SRT),方便与字幕或文档工作流整合。
-
翻译能力:支持多语言翻译任务,实现高效的跨语言文档处理。
-
无需 API 密钥:完全独立于云端基础设施运行,非常适合对数据安全有严格要求的用户。
-
使用此技能前,请确保 Whisper CLI 已在您的环境中正确配置。首次执行时,系统会将必要的模型权重下载至本地缓存目录(通常位于 ~/.cache/whisper)。
-
若要在一般消费者硬件上获得更快的性能,建议使用默认的 'turbo' 模型或较小的变体;若需要在复杂音频环境下提高准确度,则可选择较大的模型。
-
可输入常见格式的音频文件,如 MP3 或 M4A。
-
使用任务参数指定转录或翻译工作流;例如,将任务设为 'translate' 可自动将输入音频转换为目标语言的转录文字。
-
适用于在安全、本地环境中转录语音备忘录、播客、访谈和会议,且无需网络连接。
仓库统计
- Star 数
- 366,037
- Fork 数
- 75,046
- Open Issue 数
- 6,971
- 主要语言
- TypeScript
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月29日 06:58