ai-multimodal
使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。
简介
AI Multimodal Processing 技能为与 Google Gemini API (2.0/2.5 系列) 互动提供了一个全面的接口。它是专为需要高级媒体分析、文档提取和生成功能的软件代理和工程师所设计。通过利用 Gemini 的超大上下文窗口 (高达 200 万 tokens),此技能实现了对长篇音频、数小时视频内容及多页文档的端到端处理,成为处理数据密集型工作流和自动化内容生产的必备工具。
-
进阶音频处理:生成精确的带时间戳转录,总结长达数小时的录音,执行说话者识别,以及分析环境声音。
-
计算机视觉与图像理解:执行物体检测、像素级分割、视觉问答及大批量图像比对。包含用于从复杂排版中提取文字的 OCR 功能。
-
视频智能分析:通过文件上传或 YouTube 链接分析视频内容。功能包括场景检测、时间轴问答及长达 6 小时的大型数据集帧级分析。
-
文档提取:原生基于视觉的 PDF 解析 (高达 1,000 页)。将表格、表单、图表及流程图中的结构化数据提取为纯净的 JSON 或 Markdown 格式。
-
生成能力:根据文字提示生成高质量图像,支持迭代精炼、图像编辑及多种长宽比的图像合成。
-
支持 Google AI Studio 及 Vertex AI 平台,以实现最大的部署灵活性。
-
需要通过环境变量 (GEMINI_API_KEY) 进行 API 设置,并提供分层优先级加载机制以确保开发安全性。
-
整合 MP3、WAV、MP4、PDF 及多种图像格式 (JPEG, PNG, WEBP)。
-
性能通过自动媒体压缩及批处理脚本进行优化,以在 token 限制内处理大型输入。
-
专为使用 Python 的技术环境所设计,提供干净的 google-genai SDK 包装,确保可重复使用的生产级 AI 工作流。
仓库统计
- Star 数
- 9
- Fork 数
- 0
- Open Issue 数
- 0
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月3日 05:57