工程开发
gemini-video-understanding avatar

gemini-video-understanding

使用 Google Gemini API 进行深度视频分析:包含视频摘要、音频转录、时间戳提取、视频片段剪辑,并支持 YouTube 链接或本地文件,适用于多种模型与长文本上下文。

简介

Gemini Video Understanding 技能为开发者、研究人员及内容创作者提供了一个强大的接口,利用 Google 最先进的多模态 AI 模型进行复杂的视频处理任务。此工具直接整合至代理工作流程中,能够协助用户从视频数据中获取深度洞察。无论您需要处理大规模教育内容、自动化转录流程,还是进行快速内容索引,该技能都能通过与 Gemini 2.5 Pro 和 Flash 模型互动来完成繁重的工作,并利用其高达 200 万 token 的超长上下文窗口,在单次请求中分析长达数小时的视频。除了支持 MP4、MOV 和 AVI 等多种格式的本地文件外,还能直接处理 YouTube 链接,为各种数据管道提供了极高的灵活性。

  • 执行细致的视频摘要,将数小时的视频浓缩为关键要点。

  • 高准确度转录音频,并同步提供屏幕事件的视觉描述。

  • 利用精确的时间戳 (MM:SS) 来标记特定时刻,方便稽核或引用。

  • 通过简单的脚本命令定义开始与结束偏移,实现自动化视频剪辑。

  • 使用 Gemini 2.5 架构同时对多个视频进行比对与分析。

  • 调整帧率 (FPS) 采样,以在处理速度与分析深度之间取得平衡。

  • 支持 Gemini 2.5-pro、2.5-flash 及 2.0-flash 系列模型,满足不同的性能需求。

  • 在执行前,请确保 GEMINI_API_KEY 已通过环境变量或本地 .env 文件正确设置。

  • 利用内置的 Python 脚本来处理复杂任务,例如多视频比对或自定义帧采样。

  • 请注意 token 限制;虽然 200 万的上下文窗口非常强大,但较高的分辨率处理会增加每秒的消耗量。

  • 请注意,YouTube 分析功能仅支持公开视频;不支持私人或未公开视频。

  • 此工具非常适合用于建立可搜索的元数据、教育测验、动作检测以及自动化内容审核工作流程。

  • 通过选择适当的模型来最大化性能,例如选择 2.5-flash 以进行快速任务,或选择 2.5-pro 以进行高精确度的分析推理。

仓库统计

Star 数
1
Fork 数
0
Open Issue 数
0
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年5月4日 01:34
在 GitHub 查看