生產力
qwen-asr avatar

qwen-asr

使用 Qwen ASR 模型將音訊檔案 (wav, mp3, ogg) 轉錄為文字。快速、易於本地部署且無需 API 金鑰。

簡介

Qwen ASR 是一個多功能的語音轉文字工具,專為需要有效率地將錄音轉換為逐字稿的開發者與進階用戶而設計。透過利用 Qwen ASR 演示服務,此技能提供了一個精簡的介面來處理各種音訊格式,包括 wav、mp3 和 ogg 檔案。對於需要在 AI Agent 工作流程中自動化會議記錄、處理語音訊息或為音訊內容建立索引,且不想管理複雜認證或付費 API 服務的用戶來說,這是一個理想的解決方案。本技能旨在透過標準 shell 指令無縫整合到您的本地開發環境中。

  • 支援多語言,適用於多元的全球內容。

  • 輕量級架構,無需配置或管理 API 金鑰。

  • 直接的命令列整合,允許將輸入內容直接導向至文字檔案。

  • 基於經過驗證的 Qwen 語音轉文字模型,提供高效能的轉錄能力。

  • 跨平台相容性,適用於音訊轉文字任務的本地處理。

  • 輸入:支援標準音訊格式,包括 .wav, .mp3 和 .ogg 檔案。

  • 輸出:產生清晰的文字逐字稿,可重新導向至 .txt 檔案或傳遞至後續的 LLM 處理鏈。

  • 使用方式:透過提供的 uv 管理腳本執行轉錄,例如 uv run scripts/main.py -f audio.wav

  • 限制:依賴於 Qwen ASR 演示服務端點;請確保您的環境已安裝基本的 Python 依賴項。

  • 最佳實踐:適用於代理互動中,針對用戶發送的短至中長度音訊片段或語音訊息進行快速、按需的轉錄。

倉庫統計

Star 數
4,456
Fork 數
1,215
Open Issue 數
7
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月30日 下午12:00
在 GitHub 查看