audio

簡介

語音生成工具提供了一個統一的 API 驅動介面，用於將文字轉換為自然的語音。此工具專為 AI 編碼代理和開發者設計，將多種文字轉語音 (TTS) 提供商的複雜性封裝成單一的 CLI 工具。它非常適合開發者構建互動式應用程式、自動化旁白系統或需要高品質合成語音輸出的輔助技術工具。

多供應商支援：可無縫切換 ElevenLabs（先進聲音複製與自然合成）、OpenAI（高效能 TTS-1 與 HD 模型）以及 Google TTS（廣泛的國際語言支援）。
原生 CLI 實現：採用乾淨的 TypeScript 架構並使用原生 fetch，避免過度依賴外部 HTTP 函式庫。
彈性聲音管理：可列出每個供應商的可用語音選項，確保使用者能根據具體場景選擇合適的語氣。
多語言能力：利用各主要供應商的最新模型，支援廣泛的全球語言與在地口音。
高品質輸出：可針對不同音訊格式與模型進行配置（例如 eleven_multilingual_v2, tts-1-hd）。
開始使用前，請先配置您的環境變數，包含有效的 ELEVENLABS_API_KEY, OPENAI_API_KEY 和 GOOGLE_API_KEY。
使用方式包含簡單的指令，例如透過指定 --provider、--text 和 --voice 來生成音訊，或使用 voices 指令列出語音選項。
本工具專為 Bun 1.0+ 執行環境設計，確保在 CI/CD 流程或本機開發環境中具備快速執行與高效能表現。
限制：需要各供應商的有效 API 訂閱；若處理大量檔案批次時，請確保已處理音訊播放或儲存的系統依賴。
實用建議：使用 --output 標誌為生成的資源定義檔案路徑與命名規範；可將此技能與其他代理工作流程串聯，以自動化內容旁白流程。

簡介