简介

speak 技能提供了一个强大的本地文字转语音 (TTS) 引擎，由 Kokoro TTS 模型驱动。此工具允许用户将文本文件、原始字符串或文档转换为高质量的音频文件，而无需依赖外部云端 API 或妥协隐私的服务。它专为开发者、内容创作者以及需要高效语音生成以进行无障碍阅读、旁白或媒体生产工作流的用户所设计。通过完全在本地运行，它在确保数据主权的同时维持低延迟与高性能。

多语言支持：使用多种预训练语音库，合成英语 (美式/英式)、普通话 (cmn)、日语 (ja)、法语 (fr-fr) 和意大利语 (it) 的语音。
高级音频自定义：通过自定义语速调整与语音混合 (混合多种语音模型) 等参数精细化输出。
弹性格式支持：处理从简单文本字符串、文件到 EPUB 或 PDF 等结构化格式的输入，实现自动化有声书制作或长篇内容叙述。
无外部依赖：完全离线运行；仅需将 kokoro-v1.0.onnx 模型与 voices-v1.0.bin 文件置于工作目录中即可使用。
实时流式播放：提供流式播放选项，可直接将音频传输至硬件进行实时反馈，无需将中间文件存储至磁盘。
使用说明：请确保已下载模型文件并放置于项目根目录。通过命令行执行时，使用 --voice 参数选定特定语音模型。
限制：需要本地计算资源；性能取决于机器的 CPU/GPU 能力。请确保已安装 uv 工具以有效管理二进制依赖项。
使用情境：非常适合将技术文档转换为语音指南、构建本地化 TTS 代理、制作交互式语音界面原型，或建立个人阅读助理。

创业课程

在线课程

实体课程

speak

简介

仓库统计