sag
为 OpenClaw 提供的 ElevenLabs 文字转语音引擎,具备 macOS 风格的命令行界面与语音合成控制功能。
简介
Sag 是一款为 OpenClaw AI 助手设计的高性能文字转语音 (TTS) 集成工具,利用 ElevenLabs 提供逼真且富有表现力的合成语音。它采用 macOS 'say' 指令的熟悉操作界面,让用户能直接从命令行将文本回应转换为高质量的音频文件。此技能适合偏好听觉互动,或需要为自动化聊天回应生成语音内容的用户。它支持多种 ElevenLabs 模型,包含用于对话式助手的表达型模型,以及用于低延迟播放的快速模型。
-
完整的 ElevenLabs API 集成,支持 v2、v2.5 及 v3 模型架构。
-
支持语音标记,例如 [whispers] (耳语)、[shouts] (呐喊)、[sings] (唱歌) 与 [laughs] (笑声),提供更自然的朗读效果。
-
内置语音参数自定义功能,包含 Voice ID 与规范化语言偏差设置。
-
集成语音聊天回应生成管线,输出适合 OpenClaw MEDIA 协议的文件路径。
-
提供简单的命令行界面,用于列出语音列表、测试 TTS,并通过重新拼写与规范化功能来调整发音。
-
请确保您已在环境变量中设置有效的 ElevenLabs API 密钥 (ELEVENLABS_API_KEY 或 SAG_API_KEY)。
-
使用 [pause]、[short pause] 或 [long pause] 标签来控制语音节奏,因为 v3 模型不支持标准的 SSML break 标签。
-
若要集成聊天功能,请将音频文件生成至临时目录,并使用 MEDIA:/path/to/file.mp3 语法,以便在助手的客户端渲染输出。
-
当定义特定角色性格(如“疯狂科学家”)时,可结合情绪标签与强度设置,以达到最佳效果。
-
使用 --normalize auto 标志来自动处理数字、单位与网址,若该功能影响到特定专有名词,则建议切换为 off。
仓库统计
- Star 数
- 366,063
- Fork 数
- 75,055
- Open Issue 数
- 6,978
- 主要语言
- TypeScript
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月29日 07:48