生產力
speak
使用 Kokoro TTS 進行本地文字轉語音。在終端機中生成語音、朗讀文字並處理多語言語音合成。
簡介
speak 技能提供了一個強大的本地文字轉語音 (TTS) 引擎,由 Kokoro TTS 模型驅動。此工具允許使用者將文字檔、原始字串或文件轉換為高品質的音訊檔案,而無需依賴外部雲端 API 或妥協隱私的服務。它專為開發者、內容創作者以及需要高效語音生成以進行無障礙閱讀、旁白或媒體製作工作流程的使用者所設計。透過完全在本地運行,它在確保資料主權的同時維持低延遲與高效能。
-
多語言支援:使用多種預訓練語音庫,合成英語 (美式/英式)、普通話 (cmn)、日語 (ja)、法語 (fr-fr) 和義大利語 (it) 的語音。
-
進階音訊自訂:透過自訂語速調整與語音混合 (混合多種語音模型) 等參數精細化輸出。
-
彈性格式支援:處理從簡單文字字串、檔案到 EPUB 或 PDF 等結構化格式的輸入,實現自動化有聲書製作或長篇內容敘述。
-
無外部依賴:完全離線運行;僅需將 kokoro-v1.0.onnx 模型與 voices-v1.0.bin 檔案置於工作目錄中即可使用。
-
即時串流播放:提供串流選項,可直接將音訊傳輸至硬體進行即時回饋,無需將中間檔案儲存至磁碟。
-
使用說明:請確保已下載模型檔案並放置於專案根目錄。透過命令列執行時,使用 --voice 參數選定特定語音模型。
-
限制:需要本地計算資源;效能取決於機器的 CPU/GPU 能力。請確保已安裝 uv 工具以有效管理二進位依賴項。
-
使用情境:非常適合將技術文件轉換為語音指南、建置本地化 TTS 代理、製作互動式語音介面原型,或建立個人閱讀助理。
倉庫統計
- Star 數
- 4,453
- Fork 數
- 1,213
- Open Issue 數
- 7
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月30日 上午09:06