生產力
ai-multimodal avatar

ai-multimodal

使用 Google Gemini 處理與生成多媒體內容。支援音訊轉錄、影像辨識、影片分析、PDF 解析及 AI 圖像生成,具備超長上下文窗口,適用於複雜的多模態 AI 任務。

簡介

AI Multimodal Processing 技能為與 Google Gemini API (2.0/2.5 系列) 互動提供了一個全面的介面。它是專為需要高級媒體分析、文件提取和生成功能的軟體代理和工程師所設計。透過利用 Gemini 的超大上下文窗口 (高達 200 萬 tokens),此技能實現了對長篇音訊、數小時影片內容及多頁文件的端到端處理,成為處理數據密集型工作流程和自動化內容生產的必備工具。

  • 進階音訊處理:生成精確的帶時間戳記轉錄,總結長達數小時的錄音,執行說話者識別,以及分析環境聲音。

  • 電腦視覺與影像理解:執行物體偵測、像素級分割、視覺問答及大批量影像比對。包含用於從複雜排版中提取文字的 OCR 功能。

  • 影片智慧分析:透過檔案上傳或 YouTube 連結分析影片內容。功能包括場景偵測、時間軸問答及長達 6 小時的大型數據集幀級分析。

  • 文件提取:原生基於視覺的 PDF 解析 (高達 1,000 頁)。將表格、表單、圖表及流程圖中的結構化數據提取為純淨的 JSON 或 Markdown 格式。

  • 生成能力:根據文字提示生成高品質影像,支援迭代精煉、影像編輯及多種長寬比的圖像合成。

  • 支援 Google AI Studio 及 Vertex AI 平台,以實現最大的部署靈活性。

  • 需要透過環境變數 (GEMINI_API_KEY) 進行 API 設定,並提供分層優先級加載機制以確保開發安全性。

  • 整合 MP3、WAV、MP4、PDF 及多種影像格式 (JPEG, PNG, WEBP)。

  • 效能透過自動媒體壓縮及批次處理腳本進行最佳化,以在 token 限制內處理大型輸入。

  • 專為使用 Python 的技術環境所設計,提供乾淨的 google-genai SDK 包裝,確保可重複使用的生產級 AI 工作流。

倉庫統計

Star 數
9
Fork 數
0
Open Issue 數
0
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月3日 上午05:57
在 GitHub 查看