工程開發
gemini-vision
實作 Google Gemini API 影像分析功能,包含圖片標註、物件偵測、圖像分割、視覺問答及多圖比較分析。
簡介
Gemini Vision API 技能為您的代理工作流程整合 Google 的先進多模態 AI 提供了強大的工具集。此技能專為開發人員與工程師設計,旨在實現自動化的視覺理解,讓代理程式能夠透過程式碼解釋、分類及操作影像與文件資料。它同時支援 Google AI Studio 與 Vertex AI 端點,為從本地開發到雲端生產環境的部署提供了靈活性。
- 進階影像理解:執行自動化的圖片標註、圖像分類以及視覺問答 (VQA)。
- 精準空間感知:利用 Gemini 2.0+ 模型進行邊界框物件偵測,以及 Gemini 2.5+ 進行像素級圖像分割。
- 高容量文件處理:導入並分析最多 1,000 頁的 PDF 文件,從圖表、表格與文字中提取結構化洞察。
- 多圖分析:單次請求可比較並分析多達 3,600 張圖片,非常適合變化偵測與批次視覺處理作業。
- 靈活的 API 設定:支援多層次身份驗證與環境變數設定,實現安全的 API 密鑰管理。
- 可擴展的模型選擇:可根據需求選擇特定模型,例如追求速度的 Flash-Lite 模型,或追求最高視覺推理能力的 Pro 系列模型。
使用注意事項包含透過階層式 .env 設定檔來配置 GEMINI_API_KEY,並針對超過 20MB 的大型影像或檔案使用 File API。Token 使用量基於影像平鋪 (768x768 單位) 計算,建議透過 Google Cloud Console 監控用量。支援的輸入格式包含 PNG、JPEG、WEBP、HEIC 與 PDF。為最大化自動化任務的準確度,建議在提示詞中提供少量樣本 (few-shot) 與明確的格式化指示 (如 JSON 或 Markdown)。
倉庫統計
- Star 數
- 1
- Fork 數
- 0
- Open Issue 數
- 0
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月3日 上午05:36