ai-multimodal

簡介

AI Multimodal Processing 技能為與 Google Gemini API (2.0/2.5 系列) 互動提供了一個全面的介面。它是專為需要高級媒體分析、文件提取和生成功能的軟體代理和工程師所設計。透過利用 Gemini 的超大上下文窗口 (高達 200 萬 tokens)，此技能實現了對長篇音訊、數小時影片內容及多頁文件的端到端處理，成為處理數據密集型工作流程和自動化內容生產的必備工具。

進階音訊處理：生成精確的帶時間戳記轉錄，總結長達數小時的錄音，執行說話者識別，以及分析環境聲音。
電腦視覺與影像理解：執行物體偵測、像素級分割、視覺問答及大批量影像比對。包含用於從複雜排版中提取文字的 OCR 功能。
影片智慧分析：透過檔案上傳或 YouTube 連結分析影片內容。功能包括場景偵測、時間軸問答及長達 6 小時的大型數據集幀級分析。
文件提取：原生基於視覺的 PDF 解析 (高達 1,000 頁)。將表格、表單、圖表及流程圖中的結構化數據提取為純淨的 JSON 或 Markdown 格式。
生成能力：根據文字提示生成高品質影像，支援迭代精煉、影像編輯及多種長寬比的圖像合成。
支援 Google AI Studio 及 Vertex AI 平台，以實現最大的部署靈活性。
需要透過環境變數 (GEMINI_API_KEY) 進行 API 設定，並提供分層優先級加載機制以確保開發安全性。
整合 MP3、WAV、MP4、PDF 及多種影像格式 (JPEG, PNG, WEBP)。
效能透過自動媒體壓縮及批次處理腳本進行最佳化，以在 token 限制內處理大型輸入。
專為使用 Python 的技術環境所設計，提供乾淨的 google-genai SDK 包裝，確保可重複使用的生產級 AI 工作流。

創業課程

網上課程

實體課程

簡介

倉庫統計