生產力
openai-whisper avatar

openai-whisper

使用 OpenAI Whisper CLI 進行本地語音轉文字轉錄,無需外部 API 金鑰即可提供私密且高準確度的音訊處理。

簡介

openai-whisper 技能讓 OpenClaw 用戶能夠進行高品質的本地語音轉文字 (STT) 轉錄。透過直接在本地機器上利用 OpenAI Whisper 模型的功能,此技能確保您的敏感音訊檔案、會議記錄或個人語音筆記永遠不會離開裝置進行處理。它消除了對基於雲端的語音轉文字服務的依賴,繞過了 API 金鑰需求和訂閱成本,同時保持對數據隱私的完全控制。

  • 本地優先轉錄:使用本地硬體資源在離線狀態下執行所有音訊處理。

  • 模型選擇靈活性:支援多種 Whisper 模型大小(如 turbo、medium),可根據硬體效能平衡處理速度與轉錄準確度。

  • 格式多樣性:輸出標準格式(如 TXT 和 SRT),方便與字幕或文件工作流整合。

  • 翻譯能力:支援多語言翻譯任務,實現高效的跨語言文件處理。

  • 無需 API 金鑰:完全獨立於雲端基礎設施運作,非常適合對數據安全有嚴格要求的用戶。

  • 使用此技能前,請確保 Whisper CLI 已在您的環境中正確配置。首次執行時,系統會將必要的模型權重下載至本地快取目錄(通常位於 ~/.cache/whisper)。

  • 若要在一般消費者硬體上獲得更快的效能,建議使用預設的 'turbo' 模型或較小的變體;若需要在複雜音訊環境下提高準確度,則可選擇較大的模型。

  • 可輸入常見格式的音訊檔案,如 MP3 或 M4A。

  • 使用任務參數指定轉錄或翻譯工作流;例如,將任務設為 'translate' 可自動將輸入音訊轉換為目標語言的轉錄文字。

  • 適用於在安全、本地環境中轉錄語音備忘錄、Podcast、訪談和會議,且無需網路連線。

倉庫統計

Star 數
366,037
Fork 數
75,046
Open Issue 數
6,971
主要語言
TypeScript
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月29日 上午06:58
在 GitHub 查看