生產力
sag avatar

sag

為 OpenClaw 提供的 ElevenLabs 文字轉語音引擎,具備 macOS 風格的指令列介面與語音合成控制功能。

簡介

Sag 是一款為 OpenClaw AI 助理設計的高效能文字轉語音 (TTS) 整合工具,利用 ElevenLabs 提供逼真且富有表現力的合成語音。它採用 macOS 'say' 指令的熟悉操作介面,讓使用者能直接從指令列將文字回應轉換為高品質的音訊檔案。此技能適合偏好聽覺互動,或需要為自動化聊天回應生成語音內容的使用者。它支援多種 ElevenLabs 模型,包含用於對話式助理的表達型模型,以及用於低延遲播放的快速模型。

  • 完整的 ElevenLabs API 整合,支援 v2、v2.5 及 v3 模型架構。

  • 支援語音標記,例如 [whispers] (耳語)、[shouts] (吶喊)、[sings] (唱歌) 與 [laughs] (笑聲),提供更自然的發音。

  • 內建語音參數自訂功能,包含 Voice ID 與正規化語言偏差設定。

  • 整合語音聊天回應生成管線,輸出適合 OpenClaw MEDIA 協定的檔案路徑。

  • 提供簡單的指令列介面,用於列出語音清單、測試 TTS,並透過重新拼寫與正規化功能來調整發音。

  • 請確保您已在環境變數中設定有效的 ElevenLabs API 金鑰 (ELEVENLABS_API_KEY 或 SAG_API_KEY)。

  • 使用 [pause]、[short pause] 或 [long pause] 標籤來控制語音節奏,因為 v3 模型不支援標準的 SSML break 標籤。

  • 若要整合聊天功能,請將音訊檔案生成至暫存目錄,並使用 MEDIA:/path/to/file.mp3 語法,以便在助理的用戶端渲染輸出。

  • 當定義特定角色性格(如「瘋狂科學家」)時,可結合情緒標籤與強度設定,以達到最佳效果。

  • 使用 --normalize auto 旗標來自動處理數字、單位與網址,若該功能影響到特定專有名稱,則建議切換為 off。

倉庫統計

Star 數
366,063
Fork 數
75,055
Open Issue 數
6,978
主要語言
TypeScript
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月29日 上午07:48
在 GitHub 查看