gemini-audio
整合 Google Gemini API 音频处理功能:进行录音转文字、音频摘要、声音分析,并提供语音合成 (TTS) 功能以产生自然语音。
简介
此技能提供 Google Gemini API 的强大接口,使开发人员与分析师能够将先进的音频处理技术整合至工作流程中。它专为需要高精度转录、智慧摘要与多模态音频理解的应用所设计。透过利用 gemini-2.5-flash 与 gemini-2.5-pro 等模型,用户可以处理各种输入内容,从专业播客、会议录音到环境声音皆可。此技能简化了 File API 的复杂性,包含处理长达 9.5 小时的大型文件、管理文件保留期限,并为经济实惠的分析优化 Token 使用量。
-
将音频文件转录为文字,准确度高,并支持产生 MM:SS 格式的时间戳记与多讲者辨识。
-
总结复杂的音频内容、提取关键行动事项,并对语音、音乐或鸟鸣、警笛等环境声音进行语义分析。
-
使用 Gemini 原生语音模型,根据文字输入产生高质量且自然的语音,并可精确控制风格、语速、语调与口音。
-
支持多种业界标准音频格式,包含 WAV、MP3、AAC、FLAC、OGG 与 AIFF,并具备自动降采样功能以提升处理效率。
-
内建辅助指令码,可执行批次转录、特定片段分析与音频转文字等常见开发工作。
-
提供灵活的输入方式,包含针对超过 20MB 数据集的大型文件上传,以及针对小型音频片段的内嵌字节传输。
-
若文件较大(最高 2GB)或需要重复分析,请优先使用 File API;请注意,此方法上传的文件具有 48 小时自动删除政策,且受专案配额限制。
-
为了优化成本,建议将 gemini-2.5-flash 模型用于一般转录与摘要任务,并将 Pro 等级模型保留给更复杂的推理需求。
-
提示工程对于片段分析至关重要:请提供明确的 MM:SS 时间范围,以将分析聚焦于录音中的特定时刻。
-
请确保已透过技能目录或专案根目录下的 .env 文件配置 GEMINI_API_KEY,以便 API 客户端能安全地自动侦测凭证。
-
请留意内嵌数据的 20MB 请求限制;若处理生产环境的数据流,请使用 multipart 请求或 File API。
仓库统计
- Star 数
- 1
- Fork 数
- 0
- Open Issue 数
- 0
- 主要语言
- Handlebars
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月3日 18:23