生产力
ai-multimodal avatar

ai-multimodal

使用 Google Gemini 处理与生成多媒体内容。支持音频转录、图像识别、视频分析、PDF 解析及 AI 图像生成,具备超长上下文窗口,适用于复杂的多模态 AI 任务。

简介

AI Multimodal Processing 技能为与 Google Gemini API (2.0/2.5 系列) 互动提供了一个全面的接口。它是专为需要高级媒体分析、文档提取和生成功能的软件代理和工程师所设计。通过利用 Gemini 的超大上下文窗口 (高达 200 万 tokens),此技能实现了对长篇音频、数小时视频内容及多页文档的端到端处理,成为处理数据密集型工作流和自动化内容生产的必备工具。

  • 进阶音频处理:生成精确的带时间戳转录,总结长达数小时的录音,执行说话者识别,以及分析环境声音。

  • 计算机视觉与图像理解:执行物体检测、像素级分割、视觉问答及大批量图像比对。包含用于从复杂排版中提取文字的 OCR 功能。

  • 视频智能分析:通过文件上传或 YouTube 链接分析视频内容。功能包括场景检测、时间轴问答及长达 6 小时的大型数据集帧级分析。

  • 文档提取:原生基于视觉的 PDF 解析 (高达 1,000 页)。将表格、表单、图表及流程图中的结构化数据提取为纯净的 JSON 或 Markdown 格式。

  • 生成能力:根据文字提示生成高质量图像,支持迭代精炼、图像编辑及多种长宽比的图像合成。

  • 支持 Google AI Studio 及 Vertex AI 平台,以实现最大的部署灵活性。

  • 需要通过环境变量 (GEMINI_API_KEY) 进行 API 设置,并提供分层优先级加载机制以确保开发安全性。

  • 整合 MP3、WAV、MP4、PDF 及多种图像格式 (JPEG, PNG, WEBP)。

  • 性能通过自动媒体压缩及批处理脚本进行优化,以在 token 限制内处理大型输入。

  • 专为使用 Python 的技术环境所设计,提供干净的 google-genai SDK 包装,确保可重复使用的生产级 AI 工作流。

仓库统计

Star 数
9
Fork 数
0
Open Issue 数
0
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年5月3日 05:57
在 GitHub 查看