工程開發
gemini-audio avatar

gemini-audio

整合 Google Gemini API 音訊處理功能:進行錄音轉文字、音訊摘要、聲音分析,並提供語音合成 (TTS) 功能以產生自然語音。

簡介

此技能提供 Google Gemini API 的強大介面,使開發人員與分析師能夠將先進的音訊處理技術整合至工作流程中。它專為需要高精度轉錄、智慧摘要與多模態音訊理解的應用所設計。透過利用 gemini-2.5-flash 與 gemini-2.5-pro 等模型,使用者可以處理各種輸入內容,從專業播客、會議錄音到環境聲音皆可。此技能簡化了 File API 的複雜性,包含處理長達 9.5 小時的大型檔案、管理檔案保留期限,並為經濟實惠的分析優化 Token 使用量。

  • 將音訊檔案轉錄為文字,準確度高,並支援產生 MM:SS 格式的時間戳記與多講者辨識。

  • 總結複雜的音訊內容、提取關鍵行動事項,並對語音、音樂或鳥鳴、警笛等環境聲音進行語意分析。

  • 使用 Gemini 原生語音模型,根據文字輸入產生高品質且自然的語音,並可精確控制風格、語速、語調與口音。

  • 支援多種業界標準音訊格式,包含 WAV、MP3、AAC、FLAC、OGG 與 AIFF,並具備自動降採樣功能以提升處理效率。

  • 內建輔助指令碼,可執行批次轉錄、特定片段分析與音訊轉文字等常見開發工作。

  • 提供靈活的輸入方式,包含針對超過 20MB 資料集的大型檔案上傳,以及針對小型音訊片段的內嵌位元組傳輸。

  • 若檔案較大(最高 2GB)或需要重複分析,請優先使用 File API;請注意,此方法上傳的檔案具有 48 小時自動刪除政策,且受專案配額限制。

  • 為了優化成本,建議將 gemini-2.5-flash 模型用於一般轉錄與摘要任務,並將 Pro 等級模型保留給更複雜的推理需求。

  • 提示工程對於片段分析至關重要:請提供明確的 MM:SS 時間範圍,以將分析聚焦於錄音中的特定時刻。

  • 請確保已透過技能目錄或專案根目錄下的 .env 檔案配置 GEMINI_API_KEY,以便 API 用戶端能安全地自動偵測憑證。

  • 請留意內嵌資料的 20MB 請求限制;若處理生產環境的資料流,請使用 multipart 請求或 File API。

倉庫統計

Star 數
1
Fork 數
0
Open Issue 數
0
主要語言
Handlebars
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月3日 下午06:23
在 GitHub 查看
gemini-audio | Skills Hub