gemini-audio

簡介

此技能提供 Google Gemini API 的強大介面，使開發人員與分析師能夠將先進的音訊處理技術整合至工作流程中。它專為需要高精度轉錄、智慧摘要與多模態音訊理解的應用所設計。透過利用 gemini-2.5-flash 與 gemini-2.5-pro 等模型，使用者可以處理各種輸入內容，從專業播客、會議錄音到環境聲音皆可。此技能簡化了 File API 的複雜性，包含處理長達 9.5 小時的大型檔案、管理檔案保留期限，並為經濟實惠的分析優化 Token 使用量。

將音訊檔案轉錄為文字，準確度高，並支援產生 MM:SS 格式的時間戳記與多講者辨識。
總結複雜的音訊內容、提取關鍵行動事項，並對語音、音樂或鳥鳴、警笛等環境聲音進行語意分析。
使用 Gemini 原生語音模型，根據文字輸入產生高品質且自然的語音，並可精確控制風格、語速、語調與口音。
支援多種業界標準音訊格式，包含 WAV、MP3、AAC、FLAC、OGG 與 AIFF，並具備自動降採樣功能以提升處理效率。
內建輔助指令碼，可執行批次轉錄、特定片段分析與音訊轉文字等常見開發工作。
提供靈活的輸入方式，包含針對超過 20MB 資料集的大型檔案上傳，以及針對小型音訊片段的內嵌位元組傳輸。
若檔案較大（最高 2GB）或需要重複分析，請優先使用 File API；請注意，此方法上傳的檔案具有 48 小時自動刪除政策，且受專案配額限制。
為了優化成本，建議將 gemini-2.5-flash 模型用於一般轉錄與摘要任務，並將 Pro 等級模型保留給更複雜的推理需求。
提示工程對於片段分析至關重要：請提供明確的 MM:SS 時間範圍，以將分析聚焦於錄音中的特定時刻。
請確保已透過技能目錄或專案根目錄下的 .env 檔案配置 GEMINI_API_KEY，以便 API 用戶端能安全地自動偵測憑證。
請留意內嵌資料的 20MB 請求限制；若處理生產環境的資料流，請使用 multipart 請求或 File API。

創業課程

網上課程

實體課程

簡介

倉庫統計