sag
為 OpenClaw 提供的 ElevenLabs 文字轉語音引擎,具備 macOS 風格的指令列介面與語音合成控制功能。
簡介
Sag 是一款為 OpenClaw AI 助理設計的高效能文字轉語音 (TTS) 整合工具,利用 ElevenLabs 提供逼真且富有表現力的合成語音。它採用 macOS 'say' 指令的熟悉操作介面,讓使用者能直接從指令列將文字回應轉換為高品質的音訊檔案。此技能適合偏好聽覺互動,或需要為自動化聊天回應生成語音內容的使用者。它支援多種 ElevenLabs 模型,包含用於對話式助理的表達型模型,以及用於低延遲播放的快速模型。
-
完整的 ElevenLabs API 整合,支援 v2、v2.5 及 v3 模型架構。
-
支援語音標記,例如 [whispers] (耳語)、[shouts] (吶喊)、[sings] (唱歌) 與 [laughs] (笑聲),提供更自然的發音。
-
內建語音參數自訂功能,包含 Voice ID 與正規化語言偏差設定。
-
整合語音聊天回應生成管線,輸出適合 OpenClaw MEDIA 協定的檔案路徑。
-
提供簡單的指令列介面,用於列出語音清單、測試 TTS,並透過重新拼寫與正規化功能來調整發音。
-
請確保您已在環境變數中設定有效的 ElevenLabs API 金鑰 (ELEVENLABS_API_KEY 或 SAG_API_KEY)。
-
使用 [pause]、[short pause] 或 [long pause] 標籤來控制語音節奏,因為 v3 模型不支援標準的 SSML break 標籤。
-
若要整合聊天功能,請將音訊檔案生成至暫存目錄,並使用 MEDIA:/path/to/file.mp3 語法,以便在助理的用戶端渲染輸出。
-
當定義特定角色性格(如「瘋狂科學家」)時,可結合情緒標籤與強度設定,以達到最佳效果。
-
使用 --normalize auto 旗標來自動處理數字、單位與網址,若該功能影響到特定專有名稱,則建議切換為 off。
倉庫統計
- Star 數
- 366,063
- Fork 數
- 75,055
- Open Issue 數
- 6,978
- 主要語言
- TypeScript
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月29日 上午07:48