生產力
openai-whisper-api avatar

openai-whisper-api

在 OpenClaw 中使用 OpenAI Whisper API 將音訊檔案直接轉換為文字。

簡介

此 OpenClaw 技能透過 /v1/audio/transcriptions 端點使用業界標準的 OpenAI Whisper 模型,提供流暢的語音轉文字功能。它專為個人 AI 助理設計,讓使用者能直接從本地終端環境將各種音訊格式轉換為易讀的文字稿。對於需要記錄會議、整理語音筆記,或在私有、自託管的 AI 工作流程中處理媒體內容的使用者來說,這是一個理想的工具。透過支援可設定的基礎 URL,它為偏好透過本地閘道、OpenAI 相容代理或自訂 API 端點傳輸流量的使用者保持了高度的彈性。

  • 與 OpenAI Whisper-1 模型完全整合,實現高準確度的語音轉文字轉換。

  • 支援多種音訊格式,包括 .m4a、.ogg 及常見的錄音副檔名。

  • 可設定的輸出選項,允許使用者產生純文字檔或結構化的 JSON 輸出,以便進行後續的程式處理。

  • 支援語音識別與強制語言設定,能顯著提升非英語內容的轉錄準確度。

  • 支援自訂提示詞以增加上下文感知,使用者可指定講者姓名或技術詞彙來優化模型輸出。

  • 透過環境變數或標準 OpenClaw 設定檔進行集中式的驗證管理。

  • 開始使用時,請執行轉錄指令碼並輸入您的本地音訊檔案路徑:{baseDir}/scripts/transcribe.sh /path/to/file。

  • 請確保 OPENAI_API_KEY 已正確設定在 ~/.openclaw/openclaw.json 設定檔中或作為系統環境變數。

  • 對於進階使用場景,可利用 --json 旗標在取得逐字稿的同時獲取詮釋資料,這對自動化資料處理流程非常有幫助。

  • 若使用者為了隱私需求而運行本地代理或閘道服務,可透過設定 OPENAI_BASE_URL 參數來重新導向請求。

  • 本工具專為單一使用者與本地優先的操作模式設計,確保您的音訊轉錄工作流程能與 OpenClaw 個人助理設定高效且緊密地整合。

倉庫統計

Star 數
366,006
Fork 數
75,041
Open Issue 數
6,962
主要語言
TypeScript
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月29日 上午06:02
在 GitHub 查看