生产力
qwen-asr avatar

qwen-asr

使用 Qwen ASR 模型将音频文件 (wav, mp3, ogg) 转录为文本。快速、支持本地运行,无需 API 密钥。

简介

Qwen ASR 是一个多功能的语音转文字工具,专为需要高效地将录音转换为文字稿的开发人员和高级用户设计。通过利用 Qwen ASR 演示服务,此技能提供了一个精简的接口来处理各种音频格式,包括 wav、mp3 和 ogg 文件。对于需要在 AI Agent 工作流中自动化会议纪要、处理语音消息或为音频内容建立索引,且不想管理复杂认证或付费 API 服务的用户来说,这是一个理想的解决方案。本技能旨在通过标准 shell 命令无缝集成到您的本地开发环境中。

  • 支持多语言,适用于多元的全球内容。

  • 轻量级架构,无需配置或管理 API 密钥。

  • 直接的命令行集成,允许将输入内容直接导出至文本文件。

  • 基于经过验证的 Qwen 语音转文字模型,提供高性能的转录能力。

  • 跨平台兼容性,适用于音频转文字任务的本地处理。

  • 输入:支持标准音频格式,包括 .wav, .mp3 和 .ogg 文件。

  • 输出:生成清晰的文字稿,可重定向至 .txt 文件或传递至后续的 LLM 处理链。

  • 使用方式:通过提供的 uv 管理脚本执行转录,例如 uv run scripts/main.py -f audio.wav

  • 限制:依赖于 Qwen ASR 演示服务端点;请确保您的环境已安装基本的 Python 依赖项。

  • 最佳实践:适用于代理交互中,针对用户发送的短至中长度音频片段或语音消息进行快速、按需的转录。

仓库统计

Star 数
4,456
Fork 数
1,215
Open Issue 数
7
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年4月30日 12:00
在 GitHub 查看