工程开发
gemini-vision avatar

gemini-vision

实现 Google Gemini API 图像分析功能,包含图像描述、对象检测、图像分割、视觉问答及多图对比分析。

简介

Gemini Vision API 技能为您的代理工作流集成 Google 的先进多模态 AI 提供了强大的工具集。此技能专为开发人员与工程师设计,旨在实现自动化的视觉理解,让代理能够通过编程方式解释、分类及操作图像与文档数据。它同时支持 Google AI Studio 与 Vertex AI 端点,为从本地开发到云端生产环境的部署提供了灵活性。

  • 高级图像理解:执行自动化的图片描述、图像分类以及视觉问答 (VQA)。
  • 精准空间感知:利用 Gemini 2.0+ 模型进行边界框对象检测,以及 Gemini 2.5+ 进行像素级图像分割。
  • 大容量文档处理:导入并分析最多 1,000 页的 PDF 文档,从图表、表格与文本中提取结构化洞察。
  • 多图分析:单次请求可比较并分析多达 3,600 张图片,非常适合变化检测与批量视觉处理作业。
  • 灵活的 API 配置:支持多层身份验证与环境变量设置,实现安全的 API 密钥管理。
  • 可扩展的模型选择:可根据需求选择特定模型,例如追求速度的 Flash-Lite 模型,或追求最高视觉推理能力的 Pro 系列模型。

使用注意事项包括通过层级式 .env 配置文件来配置 GEMINI_API_KEY,并针对超过 20MB 的大型图像或文件使用 File API。Token 使用量基于图像切片 (768x768 单位) 计算,建议通过 Google Cloud Console 监控用量。支持的输入格式包含 PNG、JPEG、WEBP、HEIC 与 PDF。为最大化自动化任务的准确度,建议在提示词中提供少样本 (few-shot) 示例与明确的格式化指示 (如 JSON 或 Markdown)。

仓库统计

Star 数
1
Fork 数
0
Open Issue 数
0
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年5月3日 05:36
在 GitHub 查看
gemini-vision | Skills Hub