生產力
qwen-asr
使用 Qwen ASR 模型將音訊檔案 (wav, mp3, ogg) 轉錄為文字。快速、易於本地部署且無需 API 金鑰。
簡介
Qwen ASR 是一個多功能的語音轉文字工具,專為需要有效率地將錄音轉換為逐字稿的開發者與進階用戶而設計。透過利用 Qwen ASR 演示服務,此技能提供了一個精簡的介面來處理各種音訊格式,包括 wav、mp3 和 ogg 檔案。對於需要在 AI Agent 工作流程中自動化會議記錄、處理語音訊息或為音訊內容建立索引,且不想管理複雜認證或付費 API 服務的用戶來說,這是一個理想的解決方案。本技能旨在透過標準 shell 指令無縫整合到您的本地開發環境中。
-
支援多語言,適用於多元的全球內容。
-
輕量級架構,無需配置或管理 API 金鑰。
-
直接的命令列整合,允許將輸入內容直接導向至文字檔案。
-
基於經過驗證的 Qwen 語音轉文字模型,提供高效能的轉錄能力。
-
跨平台相容性,適用於音訊轉文字任務的本地處理。
-
輸入:支援標準音訊格式,包括 .wav, .mp3 和 .ogg 檔案。
-
輸出:產生清晰的文字逐字稿,可重新導向至 .txt 檔案或傳遞至後續的 LLM 處理鏈。
-
使用方式:透過提供的 uv 管理腳本執行轉錄,例如
uv run scripts/main.py -f audio.wav。 -
限制:依賴於 Qwen ASR 演示服務端點;請確保您的環境已安裝基本的 Python 依賴項。
-
最佳實踐:適用於代理互動中,針對用戶發送的短至中長度音訊片段或語音訊息進行快速、按需的轉錄。
倉庫統計
- Star 數
- 4,456
- Fork 數
- 1,215
- Open Issue 數
- 7
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月30日 下午12:00