gemini-video-understanding

简介

Gemini Video Understanding 技能为开发者、研究人员及内容创作者提供了一个强大的接口，利用 Google 最先进的多模态 AI 模型进行复杂的视频处理任务。此工具直接整合至代理工作流程中，能够协助用户从视频数据中获取深度洞察。无论您需要处理大规模教育内容、自动化转录流程，还是进行快速内容索引，该技能都能通过与 Gemini 2.5 Pro 和 Flash 模型互动来完成繁重的工作，并利用其高达 200 万 token 的超长上下文窗口，在单次请求中分析长达数小时的视频。除了支持 MP4、MOV 和 AVI 等多种格式的本地文件外，还能直接处理 YouTube 链接，为各种数据管道提供了极高的灵活性。

执行细致的视频摘要，将数小时的视频浓缩为关键要点。
高准确度转录音频，并同步提供屏幕事件的视觉描述。
利用精确的时间戳 (MM:SS) 来标记特定时刻，方便稽核或引用。
通过简单的脚本命令定义开始与结束偏移，实现自动化视频剪辑。
使用 Gemini 2.5 架构同时对多个视频进行比对与分析。
调整帧率 (FPS) 采样，以在处理速度与分析深度之间取得平衡。
支持 Gemini 2.5-pro、2.5-flash 及 2.0-flash 系列模型，满足不同的性能需求。
在执行前，请确保 GEMINI_API_KEY 已通过环境变量或本地 .env 文件正确设置。
利用内置的 Python 脚本来处理复杂任务，例如多视频比对或自定义帧采样。
请注意 token 限制；虽然 200 万的上下文窗口非常强大，但较高的分辨率处理会增加每秒的消耗量。
请注意，YouTube 分析功能仅支持公开视频；不支持私人或未公开视频。
此工具非常适合用于建立可搜索的元数据、教育测验、动作检测以及自动化内容审核工作流程。
通过选择适当的模型来最大化性能，例如选择 2.5-flash 以进行快速任务，或选择 2.5-pro 以进行高精确度的分析推理。

创业课程

在线课程

实体课程

gemini-video-understanding

简介

仓库统计