gemini-vision

簡介

Gemini Vision API 技能為您的代理工作流程整合 Google 的先進多模態 AI 提供了強大的工具集。此技能專為開發人員與工程師設計，旨在實現自動化的視覺理解，讓代理程式能夠透過程式碼解釋、分類及操作影像與文件資料。它同時支援 Google AI Studio 與 Vertex AI 端點，為從本地開發到雲端生產環境的部署提供了靈活性。

進階影像理解：執行自動化的圖片標註、圖像分類以及視覺問答 (VQA)。
精準空間感知：利用 Gemini 2.0+ 模型進行邊界框物件偵測，以及 Gemini 2.5+ 進行像素級圖像分割。
高容量文件處理：導入並分析最多 1,000 頁的 PDF 文件，從圖表、表格與文字中提取結構化洞察。
多圖分析：單次請求可比較並分析多達 3,600 張圖片，非常適合變化偵測與批次視覺處理作業。
靈活的 API 設定：支援多層次身份驗證與環境變數設定，實現安全的 API 密鑰管理。
可擴展的模型選擇：可根據需求選擇特定模型，例如追求速度的 Flash-Lite 模型，或追求最高視覺推理能力的 Pro 系列模型。

使用注意事項包含透過階層式 .env 設定檔來配置 GEMINI_API_KEY，並針對超過 20MB 的大型影像或檔案使用 File API。Token 使用量基於影像平鋪 (768x768 單位) 計算，建議透過 Google Cloud Console 監控用量。支援的輸入格式包含 PNG、JPEG、WEBP、HEIC 與 PDF。為最大化自動化任務的準確度，建議在提示詞中提供少量樣本 (few-shot) 與明確的格式化指示 (如 JSON 或 Markdown)。

創業課程

網上課程

實體課程

簡介

倉庫統計