gemini-vision

简介

Gemini Vision API 技能为您的代理工作流集成 Google 的先进多模态 AI 提供了强大的工具集。此技能专为开发人员与工程师设计，旨在实现自动化的视觉理解，让代理能够通过编程方式解释、分类及操作图像与文档数据。它同时支持 Google AI Studio 与 Vertex AI 端点，为从本地开发到云端生产环境的部署提供了灵活性。

高级图像理解：执行自动化的图片描述、图像分类以及视觉问答 (VQA)。
精准空间感知：利用 Gemini 2.0+ 模型进行边界框对象检测，以及 Gemini 2.5+ 进行像素级图像分割。
大容量文档处理：导入并分析最多 1,000 页的 PDF 文档，从图表、表格与文本中提取结构化洞察。
多图分析：单次请求可比较并分析多达 3,600 张图片，非常适合变化检测与批量视觉处理作业。
灵活的 API 配置：支持多层身份验证与环境变量设置，实现安全的 API 密钥管理。
可扩展的模型选择：可根据需求选择特定模型，例如追求速度的 Flash-Lite 模型，或追求最高视觉推理能力的 Pro 系列模型。

使用注意事项包括通过层级式 .env 配置文件来配置 GEMINI_API_KEY，并针对超过 20MB 的大型图像或文件使用 File API。Token 使用量基于图像切片 (768x768 单位) 计算，建议通过 Google Cloud Console 监控用量。支持的输入格式包含 PNG、JPEG、WEBP、HEIC 与 PDF。为最大化自动化任务的准确度，建议在提示词中提供少样本 (few-shot) 示例与明确的格式化指示 (如 JSON 或 Markdown)。

创业课程

在线课程

实体课程

简介

仓库统计