gemini-audio

简介

此技能提供 Google Gemini API 的强大接口，使开发人员与分析师能够将先进的音频处理技术整合至工作流程中。它专为需要高精度转录、智慧摘要与多模态音频理解的应用所设计。透过利用 gemini-2.5-flash 与 gemini-2.5-pro 等模型，用户可以处理各种输入内容，从专业播客、会议录音到环境声音皆可。此技能简化了 File API 的复杂性，包含处理长达 9.5 小时的大型文件、管理文件保留期限，并为经济实惠的分析优化 Token 使用量。

将音频文件转录为文字，准确度高，并支持产生 MM:SS 格式的时间戳记与多讲者辨识。
总结复杂的音频内容、提取关键行动事项，并对语音、音乐或鸟鸣、警笛等环境声音进行语义分析。
使用 Gemini 原生语音模型，根据文字输入产生高质量且自然的语音，并可精确控制风格、语速、语调与口音。
支持多种业界标准音频格式，包含 WAV、MP3、AAC、FLAC、OGG 与 AIFF，并具备自动降采样功能以提升处理效率。
内建辅助指令码，可执行批次转录、特定片段分析与音频转文字等常见开发工作。
提供灵活的输入方式，包含针对超过 20MB 数据集的大型文件上传，以及针对小型音频片段的内嵌字节传输。
若文件较大（最高 2GB）或需要重复分析，请优先使用 File API；请注意，此方法上传的文件具有 48 小时自动删除政策，且受专案配额限制。
为了优化成本，建议将 gemini-2.5-flash 模型用于一般转录与摘要任务，并将 Pro 等级模型保留给更复杂的推理需求。
提示工程对于片段分析至关重要：请提供明确的 MM:SS 时间范围，以将分析聚焦于录音中的特定时刻。
请确保已透过技能目录或专案根目录下的 .env 文件配置 GEMINI_API_KEY，以便 API 客户端能安全地自动侦测凭证。
请留意内嵌数据的 20MB 请求限制；若处理生产环境的数据流，请使用 multipart 请求或 File API。

创业课程

在线课程

实体课程

简介

仓库统计