生产力
speak
使用 Kokoro TTS 进行本地文字转语音。在终端中生成音频、朗读文本并处理多语言语音合成。
简介
speak 技能提供了一个强大的本地文字转语音 (TTS) 引擎,由 Kokoro TTS 模型驱动。此工具允许用户将文本文件、原始字符串或文档转换为高质量的音频文件,而无需依赖外部云端 API 或妥协隐私的服务。它专为开发者、内容创作者以及需要高效语音生成以进行无障碍阅读、旁白或媒体生产工作流的用户所设计。通过完全在本地运行,它在确保数据主权的同时维持低延迟与高性能。
-
多语言支持:使用多种预训练语音库,合成英语 (美式/英式)、普通话 (cmn)、日语 (ja)、法语 (fr-fr) 和意大利语 (it) 的语音。
-
高级音频自定义:通过自定义语速调整与语音混合 (混合多种语音模型) 等参数精细化输出。
-
弹性格式支持:处理从简单文本字符串、文件到 EPUB 或 PDF 等结构化格式的输入,实现自动化有声书制作或长篇内容叙述。
-
无外部依赖:完全离线运行;仅需将 kokoro-v1.0.onnx 模型与 voices-v1.0.bin 文件置于工作目录中即可使用。
-
实时流式播放:提供流式播放选项,可直接将音频传输至硬件进行实时反馈,无需将中间文件存储至磁盘。
-
使用说明:请确保已下载模型文件并放置于项目根目录。通过命令行执行时,使用 --voice 参数选定特定语音模型。
-
限制:需要本地计算资源;性能取决于机器的 CPU/GPU 能力。请确保已安装 uv 工具以有效管理二进制依赖项。
-
使用情境:非常适合将技术文档转换为语音指南、构建本地化 TTS 代理、制作交互式语音界面原型,或建立个人阅读助理。
仓库统计
- Star 数
- 4,453
- Fork 数
- 1,213
- Open Issue 数
- 7
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月30日 09:06