ai-multimodal
使用 Google Gemini 處理與生成多媒體內容。支援音訊轉錄、影像辨識、影片分析、PDF 解析及 AI 圖像生成,具備超長上下文窗口,適用於複雜的多模態 AI 任務。
簡介
AI Multimodal Processing 技能為與 Google Gemini API (2.0/2.5 系列) 互動提供了一個全面的介面。它是專為需要高級媒體分析、文件提取和生成功能的軟體代理和工程師所設計。透過利用 Gemini 的超大上下文窗口 (高達 200 萬 tokens),此技能實現了對長篇音訊、數小時影片內容及多頁文件的端到端處理,成為處理數據密集型工作流程和自動化內容生產的必備工具。
-
進階音訊處理:生成精確的帶時間戳記轉錄,總結長達數小時的錄音,執行說話者識別,以及分析環境聲音。
-
電腦視覺與影像理解:執行物體偵測、像素級分割、視覺問答及大批量影像比對。包含用於從複雜排版中提取文字的 OCR 功能。
-
影片智慧分析:透過檔案上傳或 YouTube 連結分析影片內容。功能包括場景偵測、時間軸問答及長達 6 小時的大型數據集幀級分析。
-
文件提取:原生基於視覺的 PDF 解析 (高達 1,000 頁)。將表格、表單、圖表及流程圖中的結構化數據提取為純淨的 JSON 或 Markdown 格式。
-
生成能力:根據文字提示生成高品質影像,支援迭代精煉、影像編輯及多種長寬比的圖像合成。
-
支援 Google AI Studio 及 Vertex AI 平台,以實現最大的部署靈活性。
-
需要透過環境變數 (GEMINI_API_KEY) 進行 API 設定,並提供分層優先級加載機制以確保開發安全性。
-
整合 MP3、WAV、MP4、PDF 及多種影像格式 (JPEG, PNG, WEBP)。
-
效能透過自動媒體壓縮及批次處理腳本進行最佳化,以在 token 限制內處理大型輸入。
-
專為使用 Python 的技術環境所設計,提供乾淨的 google-genai SDK 包裝,確保可重複使用的生產級 AI 工作流。
倉庫統計
- Star 數
- 9
- Fork 數
- 0
- Open Issue 數
- 0
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月3日 上午05:57