簡介

speak 技能提供了一個強大的本地文字轉語音 (TTS) 引擎，由 Kokoro TTS 模型驅動。此工具允許使用者將文字檔、原始字串或文件轉換為高品質的音訊檔案，而無需依賴外部雲端 API 或妥協隱私的服務。它專為開發者、內容創作者以及需要高效語音生成以進行無障礙閱讀、旁白或媒體製作工作流程的使用者所設計。透過完全在本地運行，它在確保資料主權的同時維持低延遲與高效能。

多語言支援：使用多種預訓練語音庫，合成英語 (美式/英式)、普通話 (cmn)、日語 (ja)、法語 (fr-fr) 和義大利語 (it) 的語音。
進階音訊自訂：透過自訂語速調整與語音混合 (混合多種語音模型) 等參數精細化輸出。
彈性格式支援：處理從簡單文字字串、檔案到 EPUB 或 PDF 等結構化格式的輸入，實現自動化有聲書製作或長篇內容敘述。
無外部依賴：完全離線運行；僅需將 kokoro-v1.0.onnx 模型與 voices-v1.0.bin 檔案置於工作目錄中即可使用。
即時串流播放：提供串流選項，可直接將音訊傳輸至硬體進行即時回饋，無需將中間檔案儲存至磁碟。
使用說明：請確保已下載模型檔案並放置於專案根目錄。透過命令列執行時，使用 --voice 參數選定特定語音模型。
限制：需要本地計算資源；效能取決於機器的 CPU/GPU 能力。請確保已安裝 uv 工具以有效管理二進位依賴項。
使用情境：非常適合將技術文件轉換為語音指南、建置本地化 TTS 代理、製作互動式語音介面原型，或建立個人閱讀助理。

創業課程

網上課程

實體課程

speak

簡介

倉庫統計