内容创作
audio avatar

audio

使用 ElevenLabs、OpenAI 和 Google TTS 生成高质量语音。支持声音克隆、多语言处理以及灵活的命令行操作。

简介

语音生成工具提供了一个统一的 API 驱动接口,用于将文本转换为自然的语音。此工具专为 AI 编码代理和开发者设计,将多种文本转语音 (TTS) 提供商的复杂性封装成单一的 CLI 工具。它非常适合开发者构建交互式应用程序、自动化旁白系统或需要高质量合成语音输出的辅助技术工具。

  • 多供应商支持:可无缝切换 ElevenLabs(先进声音克隆与自然合成)、OpenAI(高性能 TTS-1 与 HD 模型)以及 Google TTS(广泛的国际语言支持)。

  • 原生 CLI 实现:采用干净的 TypeScript 架构并使用原生 fetch,避免过度依赖外部 HTTP 库。

  • 弹性声音管理:可列出每个供应商的可用语音选项,确保用户能根据具体场景选择合适的语调。

  • 多语言能力:利用各主要供应商的最新模型,支持广泛的全球语言与在地口音。

  • 高质量输出:可针对不同音频格式与模型进行配置(例如 eleven_multilingual_v2, tts-1-hd)。

  • 开始使用前,请先配置您的环境变量,包含有效的 ELEVENLABS_API_KEY, OPENAI_API_KEY 和 GOOGLE_API_KEY。

  • 使用方式包含简单的指令,例如通过指定 --provider、--text 和 --voice 来生成音频,或使用 voices 指令列出语音选项。

  • 本工具专为 Bun 1.0+ 执行环境设计,确保在 CI/CD 流程或本地开发环境中具备快速执行与高性能表现。

  • 限制:需要各供应商的有效 API 订阅;若处理大量文件批次时,请确保已处理音频播放或存储的系统依赖。

  • 实用建议:使用 --output 标志为生成的资源定义文件路径与命名规范;可将此技能与其他代理工作流程串联,以自动化内容旁白流程。

仓库统计

Star 数
0
Fork 数
0
Open Issue 数
0
主要语言
TypeScript
默认分支
main
同步状态
空闲
最近同步时间
2026年5月4日 00:09
在 GitHub 查看