工程开发
text-to-speech avatar

text-to-speech

专业 Kokoro TTS 语音合成技能,专为 JARVIS 风格助手打造,提供离线、实时、安全的语音输出。包含流式合成、韵律控制及性能优化的音频生成功能。

简介

此专业技能为使用 Kokoro TTS 引擎实现高质量、实时文本转语音 (TTS) 系统提供了强大的框架。专为开发 JARVIS 风格 AI 语音助手的开发者所设计,强调离线运行能力、低延迟流式处理以及安全的内容处理机制。该技能引导您完成整个开发生命周期,从模型配置与语音选择,到生产级别的音频输出与资源管理,确保在无云端依赖的情况下高效利用 GPU 与 CPU 资源。

  • 部署 Kokoro TTS 并配置语音,以实现自然的韵律控制与多角色语音支持。

  • 实时流式合成架构,大幅降低对话界面中的延迟问题。

  • 以安全为核心的音频生成,包含输入文本过滤,以阻挡敏感信息及恶意内容。

  • 采用 TDD 优先的开发流程,验证语音合成质量、采样率与系统稳定性。

  • 性能优化技术,包含音频切片 (chunking)、模型缓存 (caching) 与异步执行,确保执行流畅。

  • 适用于开发离线优先的语音助手、离线多媒体工具或需要高保真语音的辅助功能之开发者。

  • 需要熟悉 Python、NumPy、SoundFile 与 SoundDevice 等硬件层级音频处理工具。

  • 输入格式支持纯文本或 SSML 标记字符串;输出则产生与标准流式缓冲区相容的 WAV 格式音频。

  • 开发限制包含严格的输入验证以防止过长文本带来的拒绝服务 (DoS) 攻击,以及安全的文件系统清理机制,以有效地管理临时音频缓冲区。

  • 务必遵循安全开发实践,确保个人可识别信息 (PII) 不会在测试或生产周期中被意外合成或存储于日志中。

仓库统计

Star 数
37
Fork 数
4
Open Issue 数
1
主要语言
Shell
默认分支
main
同步状态
空闲
最近同步时间
2026年5月3日 05:13
在 GitHub 查看