工程开发
gemini-vision
实现 Google Gemini API 图像分析功能,包含图像描述、对象检测、图像分割、视觉问答及多图对比分析。
简介
Gemini Vision API 技能为您的代理工作流集成 Google 的先进多模态 AI 提供了强大的工具集。此技能专为开发人员与工程师设计,旨在实现自动化的视觉理解,让代理能够通过编程方式解释、分类及操作图像与文档数据。它同时支持 Google AI Studio 与 Vertex AI 端点,为从本地开发到云端生产环境的部署提供了灵活性。
- 高级图像理解:执行自动化的图片描述、图像分类以及视觉问答 (VQA)。
- 精准空间感知:利用 Gemini 2.0+ 模型进行边界框对象检测,以及 Gemini 2.5+ 进行像素级图像分割。
- 大容量文档处理:导入并分析最多 1,000 页的 PDF 文档,从图表、表格与文本中提取结构化洞察。
- 多图分析:单次请求可比较并分析多达 3,600 张图片,非常适合变化检测与批量视觉处理作业。
- 灵活的 API 配置:支持多层身份验证与环境变量设置,实现安全的 API 密钥管理。
- 可扩展的模型选择:可根据需求选择特定模型,例如追求速度的 Flash-Lite 模型,或追求最高视觉推理能力的 Pro 系列模型。
使用注意事项包括通过层级式 .env 配置文件来配置 GEMINI_API_KEY,并针对超过 20MB 的大型图像或文件使用 File API。Token 使用量基于图像切片 (768x768 单位) 计算,建议通过 Google Cloud Console 监控用量。支持的输入格式包含 PNG、JPEG、WEBP、HEIC 与 PDF。为最大化自动化任务的准确度,建议在提示词中提供少样本 (few-shot) 示例与明确的格式化指示 (如 JSON 或 Markdown)。
仓库统计
- Star 数
- 1
- Fork 数
- 0
- Open Issue 数
- 0
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月3日 05:36