生產力
sag avatar

sag

ElevenLabs 文字轉語音 CLI 工具,採用類 macOS 'say' 操作體驗,為 OpenClaw 提供高品質、具備情感表達的語音生成功能。

簡介

sag 技能為 OpenClaw 提供了專業級的文字轉語音 (TTS) 介面,將 ElevenLabs 的先進神經語音合成技術與 macOS 'say' 工具直覺的命令列風格相結合。此技能專為需要高品質音訊輸出的個人 AI 助理使用者而設計,能產生具備自然語調與情感表達的語音回應。對於希望在自動化流程、聊天互動或個人化語音回饋系統中整合表現力豐富的語音功能的開發人員與進階使用者而言,這是極佳的選擇。

  • 完整支援 ElevenLabs 模型,包括 v3 (具表現力)、多語言 v2 以及快速版 v2.5。

  • 採用類 macOS 的 CLI 指令結構,便於快速生成音訊與本機播放。

  • 支援語音提示與特定角色傳達規則,包含耳語、吶喊、笑聲與嘆氣等自訂節奏語調。

  • 整合就緒:透過 OpenClaw 媒體管道生成音訊檔案,方便直接發送至聊天平台。

  • 可配置的音訊傳輸參數,包含針對數字、單位與網址的正規化處理,以及語言偏好設定以提升準確度。

  • 請確保在環境變數中設定了 ELEVENLABS_API_KEY 或 SAG_API_KEY 以完成身份驗證。

  • 在文字行首使用 [tag] 語法(例如 [whispers], [excited])來影響模型傳達方式,適合用於創造如「瘋狂科學家」或「戲劇性敘事者」等角色。

  • 使用 --normalize auto 參數以正確處理網址與數值資料,若處理複雜專有名詞時可選擇關閉。

  • 進行聊天回應時,可使用 -v 參數指定語音,或設定預設語音 ID (SAG_VOICE_ID) 以維持角色一致性。

  • 相容於類似 SSML 的功能(依模型版本而定),並支援在 v3 模型中使用 [pause]、[short pause] 或 [long pause] 標籤來控制語音停頓。

倉庫統計

Star 數
365,892
Fork 數
75,022
Open Issue 數
6,951
主要語言
TypeScript
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月29日 上午01:19
在 GitHub 查看