生产力
qwen-asr
使用 Qwen ASR 模型将音频文件 (wav, mp3, ogg) 转录为文本。快速、支持本地运行,无需 API 密钥。
简介
Qwen ASR 是一个多功能的语音转文字工具,专为需要高效地将录音转换为文字稿的开发人员和高级用户设计。通过利用 Qwen ASR 演示服务,此技能提供了一个精简的接口来处理各种音频格式,包括 wav、mp3 和 ogg 文件。对于需要在 AI Agent 工作流中自动化会议纪要、处理语音消息或为音频内容建立索引,且不想管理复杂认证或付费 API 服务的用户来说,这是一个理想的解决方案。本技能旨在通过标准 shell 命令无缝集成到您的本地开发环境中。
-
支持多语言,适用于多元的全球内容。
-
轻量级架构,无需配置或管理 API 密钥。
-
直接的命令行集成,允许将输入内容直接导出至文本文件。
-
基于经过验证的 Qwen 语音转文字模型,提供高性能的转录能力。
-
跨平台兼容性,适用于音频转文字任务的本地处理。
-
输入:支持标准音频格式,包括 .wav, .mp3 和 .ogg 文件。
-
输出:生成清晰的文字稿,可重定向至 .txt 文件或传递至后续的 LLM 处理链。
-
使用方式:通过提供的 uv 管理脚本执行转录,例如
uv run scripts/main.py -f audio.wav。 -
限制:依赖于 Qwen ASR 演示服务端点;请确保您的环境已安装基本的 Python 依赖项。
-
最佳实践:适用于代理交互中,针对用户发送的短至中长度音频片段或语音消息进行快速、按需的转录。
仓库统计
- Star 数
- 4,456
- Fork 数
- 1,215
- Open Issue 数
- 7
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月30日 12:00