audio
使用 ElevenLabs、OpenAI 和 Google TTS 生成高质量语音。支持声音克隆、多语言处理以及灵活的命令行操作。
简介
语音生成工具提供了一个统一的 API 驱动接口,用于将文本转换为自然的语音。此工具专为 AI 编码代理和开发者设计,将多种文本转语音 (TTS) 提供商的复杂性封装成单一的 CLI 工具。它非常适合开发者构建交互式应用程序、自动化旁白系统或需要高质量合成语音输出的辅助技术工具。
-
多供应商支持:可无缝切换 ElevenLabs(先进声音克隆与自然合成)、OpenAI(高性能 TTS-1 与 HD 模型)以及 Google TTS(广泛的国际语言支持)。
-
原生 CLI 实现:采用干净的 TypeScript 架构并使用原生 fetch,避免过度依赖外部 HTTP 库。
-
弹性声音管理:可列出每个供应商的可用语音选项,确保用户能根据具体场景选择合适的语调。
-
多语言能力:利用各主要供应商的最新模型,支持广泛的全球语言与在地口音。
-
高质量输出:可针对不同音频格式与模型进行配置(例如 eleven_multilingual_v2, tts-1-hd)。
-
开始使用前,请先配置您的环境变量,包含有效的 ELEVENLABS_API_KEY, OPENAI_API_KEY 和 GOOGLE_API_KEY。
-
使用方式包含简单的指令,例如通过指定 --provider、--text 和 --voice 来生成音频,或使用 voices 指令列出语音选项。
-
本工具专为 Bun 1.0+ 执行环境设计,确保在 CI/CD 流程或本地开发环境中具备快速执行与高性能表现。
-
限制:需要各供应商的有效 API 订阅;若处理大量文件批次时,请确保已处理音频播放或存储的系统依赖。
-
实用建议:使用 --output 标志为生成的资源定义文件路径与命名规范;可将此技能与其他代理工作流程串联,以自动化内容旁白流程。
仓库统计
- Star 数
- 0
- Fork 数
- 0
- Open Issue 数
- 0
- 主要语言
- TypeScript
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月4日 00:09