內容創作
audio avatar

audio

使用 ElevenLabs、OpenAI 和 Google TTS 生成高品質語音。支援聲音複製、多語言處理以及靈活的命令列操作。

簡介

語音生成工具提供了一個統一的 API 驅動介面,用於將文字轉換為自然的語音。此工具專為 AI 編碼代理和開發者設計,將多種文字轉語音 (TTS) 提供商的複雜性封裝成單一的 CLI 工具。它非常適合開發者構建互動式應用程式、自動化旁白系統或需要高品質合成語音輸出的輔助技術工具。

  • 多供應商支援:可無縫切換 ElevenLabs(先進聲音複製與自然合成)、OpenAI(高效能 TTS-1 與 HD 模型)以及 Google TTS(廣泛的國際語言支援)。

  • 原生 CLI 實現:採用乾淨的 TypeScript 架構並使用原生 fetch,避免過度依賴外部 HTTP 函式庫。

  • 彈性聲音管理:可列出每個供應商的可用語音選項,確保使用者能根據具體場景選擇合適的語氣。

  • 多語言能力:利用各主要供應商的最新模型,支援廣泛的全球語言與在地口音。

  • 高品質輸出:可針對不同音訊格式與模型進行配置(例如 eleven_multilingual_v2, tts-1-hd)。

  • 開始使用前,請先配置您的環境變數,包含有效的 ELEVENLABS_API_KEY, OPENAI_API_KEY 和 GOOGLE_API_KEY。

  • 使用方式包含簡單的指令,例如透過指定 --provider、--text 和 --voice 來生成音訊,或使用 voices 指令列出語音選項。

  • 本工具專為 Bun 1.0+ 執行環境設計,確保在 CI/CD 流程或本機開發環境中具備快速執行與高效能表現。

  • 限制:需要各供應商的有效 API 訂閱;若處理大量檔案批次時,請確保已處理音訊播放或儲存的系統依賴。

  • 實用建議:使用 --output 標誌為生成的資源定義檔案路徑與命名規範;可將此技能與其他代理工作流程串聯,以自動化內容旁白流程。

倉庫統計

Star 數
0
Fork 數
0
Open Issue 數
0
主要語言
TypeScript
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月4日 上午12:09
在 GitHub 查看