sag
ElevenLabs 文字转语音 CLI 工具,采用类 macOS 'say' 操作体验,为 OpenClaw 提供高质量、具备情感表达的语音生成功能。
简介
sag 技能为 OpenClaw 提供了专业级的文字转语音 (TTS) 界面,将 ElevenLabs 的先进神经语音合成技术与 macOS 'say' 工具直观的命令行风格相结合。此技能专为需要高质量音频输出的个人 AI 助理用户而设计,能产生具备自然语调与情感表达的语音回应。对于希望在自动化流程、聊天互动或个性化语音反馈系统中整合表现力丰富的语音功能的开发人员与高级用户而言,这是极佳的选择。
-
完整支持 ElevenLabs 模型,包括 v3 (具表现力)、多语言 v2 以及快速版 v2.5。
-
采用类 macOS 的 CLI 指令结构,便于快速生成音频与本地播放。
-
支持语音提示与特定角色传达规则,包含耳语、呐喊、笑声与叹气等自定义节奏语调。
-
整合就绪:通过 OpenClaw 媒体管道生成音频文件,方便直接发送至聊天平台。
-
可配置的音频传输参数,包含针对数字、单位与网址的规范化处理,以及语言偏好设置以提升准确度。
-
请确保在环境变量中设置了 ELEVENLABS_API_KEY 或 SAG_API_KEY 以完成身份验证。
-
在文字行首使用 [tag] 语法(例如 [whispers], [excited])来影响模型传达方式,适合用于创造如「疯狂科学家」或「戏剧性叙事者」等角色。
-
使用 --normalize auto 参数以正确处理网址与数值资料,若处理复杂专有名词时可选择关闭。
-
进行聊天回应时,可使用 -v 参数指定语音,或设置默认语音 ID (SAG_VOICE_ID) 以维持角色一致性。
-
兼容于类似 SSML 的功能(依模型版本而定),并支持在 v3 模型中使用 [pause]、[short pause] 或 [long pause] 标签来控制语音停顿。
仓库统计
- Star 数
- 365,892
- Fork 数
- 75,022
- Open Issue 数
- 6,951
- 主要语言
- TypeScript
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月29日 01:19