生产力
sag avatar

sag

为 OpenClaw 提供的 ElevenLabs 文字转语音引擎,具备 macOS 风格的命令行界面与语音合成控制功能。

简介

Sag 是一款为 OpenClaw AI 助手设计的高性能文字转语音 (TTS) 集成工具,利用 ElevenLabs 提供逼真且富有表现力的合成语音。它采用 macOS 'say' 指令的熟悉操作界面,让用户能直接从命令行将文本回应转换为高质量的音频文件。此技能适合偏好听觉互动,或需要为自动化聊天回应生成语音内容的用户。它支持多种 ElevenLabs 模型,包含用于对话式助手的表达型模型,以及用于低延迟播放的快速模型。

  • 完整的 ElevenLabs API 集成,支持 v2、v2.5 及 v3 模型架构。

  • 支持语音标记,例如 [whispers] (耳语)、[shouts] (呐喊)、[sings] (唱歌) 与 [laughs] (笑声),提供更自然的朗读效果。

  • 内置语音参数自定义功能,包含 Voice ID 与规范化语言偏差设置。

  • 集成语音聊天回应生成管线,输出适合 OpenClaw MEDIA 协议的文件路径。

  • 提供简单的命令行界面,用于列出语音列表、测试 TTS,并通过重新拼写与规范化功能来调整发音。

  • 请确保您已在环境变量中设置有效的 ElevenLabs API 密钥 (ELEVENLABS_API_KEY 或 SAG_API_KEY)。

  • 使用 [pause]、[short pause] 或 [long pause] 标签来控制语音节奏,因为 v3 模型不支持标准的 SSML break 标签。

  • 若要集成聊天功能,请将音频文件生成至临时目录,并使用 MEDIA:/path/to/file.mp3 语法,以便在助手的客户端渲染输出。

  • 当定义特定角色性格(如“疯狂科学家”)时,可结合情绪标签与强度设置,以达到最佳效果。

  • 使用 --normalize auto 标志来自动处理数字、单位与网址,若该功能影响到特定专有名词,则建议切换为 off。

仓库统计

Star 数
366,063
Fork 数
75,055
Open Issue 数
6,978
主要语言
TypeScript
默认分支
main
同步状态
空闲
最近同步时间
2026年4月29日 07:48
在 GitHub 查看