openai-whisper

简介

openai-whisper 技能让 OpenClaw 用户能够进行高质量的本地语音转文字 (STT) 转录。通过直接在本地机器上利用 OpenAI Whisper 模型的功能，此技能确保您的敏感音频文件、会议记录或个人语音笔记永远不会离开设备进行处理。它消除了对基于云端的语音转文字服务的依赖，绕过了 API 密钥需求和订阅成本，同时保持对数据隐私的完全控制。

本地优先转录：使用本地硬件资源在离线状态下执行所有音频处理。
模型选择灵活性：支持多种 Whisper 模型大小（如 turbo、medium），可根据硬件性能平衡处理速度与转录准确度。
格式多样性：输出标准格式（如 TXT 和 SRT），方便与字幕或文档工作流整合。
翻译能力：支持多语言翻译任务，实现高效的跨语言文档处理。
无需 API 密钥：完全独立于云端基础设施运行，非常适合对数据安全有严格要求的用户。
使用此技能前，请确保 Whisper CLI 已在您的环境中正确配置。首次执行时，系统会将必要的模型权重下载至本地缓存目录（通常位于 ~/.cache/whisper）。
若要在一般消费者硬件上获得更快的性能，建议使用默认的 'turbo' 模型或较小的变体；若需要在复杂音频环境下提高准确度，则可选择较大的模型。
可输入常见格式的音频文件，如 MP3 或 M4A。
使用任务参数指定转录或翻译工作流；例如，将任务设为 'translate' 可自动将输入音频转换为目标语言的转录文字。
适用于在安全、本地环境中转录语音备忘录、播客、访谈和会议，且无需网络连接。

创业课程

在线课程

实体课程

简介

仓库统计