簡介

Qwen ASR 是一個多功能的語音轉文字工具，專為需要有效率地將錄音轉換為逐字稿的開發者與進階用戶而設計。透過利用 Qwen ASR 演示服務，此技能提供了一個精簡的介面來處理各種音訊格式，包括 wav、mp3 和 ogg 檔案。對於需要在 AI Agent 工作流程中自動化會議記錄、處理語音訊息或為音訊內容建立索引，且不想管理複雜認證或付費 API 服務的用戶來說，這是一個理想的解決方案。本技能旨在透過標準 shell 指令無縫整合到您的本地開發環境中。

支援多語言，適用於多元的全球內容。
輕量級架構，無需配置或管理 API 金鑰。
直接的命令列整合，允許將輸入內容直接導向至文字檔案。
基於經過驗證的 Qwen 語音轉文字模型，提供高效能的轉錄能力。
跨平台相容性，適用於音訊轉文字任務的本地處理。
輸入：支援標準音訊格式，包括 .wav, .mp3 和 .ogg 檔案。
輸出：產生清晰的文字逐字稿，可重新導向至 .txt 檔案或傳遞至後續的 LLM 處理鏈。
使用方式：透過提供的 uv 管理腳本執行轉錄，例如 uv run scripts/main.py -f audio.wav。
限制：依賴於 Qwen ASR 演示服務端點；請確保您的環境已安裝基本的 Python 依賴項。
最佳實踐：適用於代理互動中，針對用戶發送的短至中長度音訊片段或語音訊息進行快速、按需的轉錄。

創業課程

網上課程

實體課程

qwen-asr

簡介

倉庫統計