ai-multimodal

简介

AI Multimodal Processing 技能为与 Google Gemini API (2.0/2.5 系列) 互动提供了一个全面的接口。它是专为需要高级媒体分析、文档提取和生成功能的软件代理和工程师所设计。通过利用 Gemini 的超大上下文窗口 (高达 200 万 tokens)，此技能实现了对长篇音频、数小时视频内容及多页文档的端到端处理，成为处理数据密集型工作流和自动化内容生产的必备工具。

进阶音频处理：生成精确的带时间戳转录，总结长达数小时的录音，执行说话者识别，以及分析环境声音。
计算机视觉与图像理解：执行物体检测、像素级分割、视觉问答及大批量图像比对。包含用于从复杂排版中提取文字的 OCR 功能。
视频智能分析：通过文件上传或 YouTube 链接分析视频内容。功能包括场景检测、时间轴问答及长达 6 小时的大型数据集帧级分析。
文档提取：原生基于视觉的 PDF 解析 (高达 1,000 页)。将表格、表单、图表及流程图中的结构化数据提取为纯净的 JSON 或 Markdown 格式。
生成能力：根据文字提示生成高质量图像，支持迭代精炼、图像编辑及多种长宽比的图像合成。
支持 Google AI Studio 及 Vertex AI 平台，以实现最大的部署灵活性。
需要通过环境变量 (GEMINI_API_KEY) 进行 API 设置，并提供分层优先级加载机制以确保开发安全性。
整合 MP3、WAV、MP4、PDF 及多种图像格式 (JPEG, PNG, WEBP)。
性能通过自动媒体压缩及批处理脚本进行优化，以在 token 限制内处理大型输入。
专为使用 Python 的技术环境所设计，提供干净的 google-genai SDK 包装，确保可重复使用的生产级 AI 工作流。

创业课程

在线课程

实体课程

简介

仓库统计