gemini-audio
整合 Google Gemini API 音訊處理功能:進行錄音轉文字、音訊摘要、聲音分析,並提供語音合成 (TTS) 功能以產生自然語音。
簡介
此技能提供 Google Gemini API 的強大介面,使開發人員與分析師能夠將先進的音訊處理技術整合至工作流程中。它專為需要高精度轉錄、智慧摘要與多模態音訊理解的應用所設計。透過利用 gemini-2.5-flash 與 gemini-2.5-pro 等模型,使用者可以處理各種輸入內容,從專業播客、會議錄音到環境聲音皆可。此技能簡化了 File API 的複雜性,包含處理長達 9.5 小時的大型檔案、管理檔案保留期限,並為經濟實惠的分析優化 Token 使用量。
-
將音訊檔案轉錄為文字,準確度高,並支援產生 MM:SS 格式的時間戳記與多講者辨識。
-
總結複雜的音訊內容、提取關鍵行動事項,並對語音、音樂或鳥鳴、警笛等環境聲音進行語意分析。
-
使用 Gemini 原生語音模型,根據文字輸入產生高品質且自然的語音,並可精確控制風格、語速、語調與口音。
-
支援多種業界標準音訊格式,包含 WAV、MP3、AAC、FLAC、OGG 與 AIFF,並具備自動降採樣功能以提升處理效率。
-
內建輔助指令碼,可執行批次轉錄、特定片段分析與音訊轉文字等常見開發工作。
-
提供靈活的輸入方式,包含針對超過 20MB 資料集的大型檔案上傳,以及針對小型音訊片段的內嵌位元組傳輸。
-
若檔案較大(最高 2GB)或需要重複分析,請優先使用 File API;請注意,此方法上傳的檔案具有 48 小時自動刪除政策,且受專案配額限制。
-
為了優化成本,建議將 gemini-2.5-flash 模型用於一般轉錄與摘要任務,並將 Pro 等級模型保留給更複雜的推理需求。
-
提示工程對於片段分析至關重要:請提供明確的 MM:SS 時間範圍,以將分析聚焦於錄音中的特定時刻。
-
請確保已透過技能目錄或專案根目錄下的 .env 檔案配置 GEMINI_API_KEY,以便 API 用戶端能安全地自動偵測憑證。
-
請留意內嵌資料的 20MB 請求限制;若處理生產環境的資料流,請使用 multipart 請求或 File API。
倉庫統計
- Star 數
- 1
- Fork 數
- 0
- Open Issue 數
- 0
- 主要語言
- Handlebars
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月3日 下午06:23