audio

简介

语音生成工具提供了一个统一的 API 驱动接口，用于将文本转换为自然的语音。此工具专为 AI 编码代理和开发者设计，将多种文本转语音 (TTS) 提供商的复杂性封装成单一的 CLI 工具。它非常适合开发者构建交互式应用程序、自动化旁白系统或需要高质量合成语音输出的辅助技术工具。

多供应商支持：可无缝切换 ElevenLabs（先进声音克隆与自然合成）、OpenAI（高性能 TTS-1 与 HD 模型）以及 Google TTS（广泛的国际语言支持）。
原生 CLI 实现：采用干净的 TypeScript 架构并使用原生 fetch，避免过度依赖外部 HTTP 库。
弹性声音管理：可列出每个供应商的可用语音选项，确保用户能根据具体场景选择合适的语调。
多语言能力：利用各主要供应商的最新模型，支持广泛的全球语言与在地口音。
高质量输出：可针对不同音频格式与模型进行配置（例如 eleven_multilingual_v2, tts-1-hd）。
开始使用前，请先配置您的环境变量，包含有效的 ELEVENLABS_API_KEY, OPENAI_API_KEY 和 GOOGLE_API_KEY。
使用方式包含简单的指令，例如通过指定 --provider、--text 和 --voice 来生成音频，或使用 voices 指令列出语音选项。
本工具专为 Bun 1.0+ 执行环境设计，确保在 CI/CD 流程或本地开发环境中具备快速执行与高性能表现。
限制：需要各供应商的有效 API 订阅；若处理大量文件批次时，请确保已处理音频播放或存储的系统依赖。
实用建议：使用 --output 标志为生成的资源定义文件路径与命名规范；可将此技能与其他代理工作流程串联，以自动化内容旁白流程。

简介