audio
使用 ElevenLabs、OpenAI 和 Google TTS 生成高品質語音。支援聲音複製、多語言處理以及靈活的命令列操作。
簡介
語音生成工具提供了一個統一的 API 驅動介面,用於將文字轉換為自然的語音。此工具專為 AI 編碼代理和開發者設計,將多種文字轉語音 (TTS) 提供商的複雜性封裝成單一的 CLI 工具。它非常適合開發者構建互動式應用程式、自動化旁白系統或需要高品質合成語音輸出的輔助技術工具。
-
多供應商支援:可無縫切換 ElevenLabs(先進聲音複製與自然合成)、OpenAI(高效能 TTS-1 與 HD 模型)以及 Google TTS(廣泛的國際語言支援)。
-
原生 CLI 實現:採用乾淨的 TypeScript 架構並使用原生 fetch,避免過度依賴外部 HTTP 函式庫。
-
彈性聲音管理:可列出每個供應商的可用語音選項,確保使用者能根據具體場景選擇合適的語氣。
-
多語言能力:利用各主要供應商的最新模型,支援廣泛的全球語言與在地口音。
-
高品質輸出:可針對不同音訊格式與模型進行配置(例如 eleven_multilingual_v2, tts-1-hd)。
-
開始使用前,請先配置您的環境變數,包含有效的 ELEVENLABS_API_KEY, OPENAI_API_KEY 和 GOOGLE_API_KEY。
-
使用方式包含簡單的指令,例如透過指定 --provider、--text 和 --voice 來生成音訊,或使用 voices 指令列出語音選項。
-
本工具專為 Bun 1.0+ 執行環境設計,確保在 CI/CD 流程或本機開發環境中具備快速執行與高效能表現。
-
限制:需要各供應商的有效 API 訂閱;若處理大量檔案批次時,請確保已處理音訊播放或儲存的系統依賴。
-
實用建議:使用 --output 標誌為生成的資源定義檔案路徑與命名規範;可將此技能與其他代理工作流程串聯,以自動化內容旁白流程。
倉庫統計
- Star 數
- 0
- Fork 數
- 0
- Open Issue 數
- 0
- 主要語言
- TypeScript
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月4日 上午12:09