内容创作
analyze-video avatar

analyze-video

通过 ffmpeg 提取并分析视频帧,为音频逐字稿添加视觉描述,从而为基于 LLM 的视频剪辑流程提供视觉上下文。

简介

analyze-video 技能是 ButterCut 工作流程中的关键组件,用于连接原始视频素材与结构化编辑数据。通过运用 ffmpeg 进行定时帧提取,此技能将静态视频内容转化为机器可读的格式。这些提取出的 JPG 帧会经过分析以产生周期性的视觉描述,并将其附加至既有的音频逐字稿中。此过程会产生一份详尽的视觉逐字稿,使 Claude 或其他 AI 代理能够“看见”视频,从而为在 Final Cut Pro、Premiere Pro 和 DaVinci Resolve 等专业非线性剪辑软件(NLE)中进行粗剪与序列创建提供明智的编辑决策。

  • 使用高性能 ffmpeg 程序进行自动化帧提取,实现高效导入。

  • 与 WhisperX 等工具生成的音频逐字稿无缝整合。

  • 产生将视觉事件与音频段落相关联的结构化 JSON 视觉逐字稿。

  • 支持高达 8 个任务的并行执行,在不导致系统超载的情况下优化 CPU/GPU 使用率。

  • 支持先进的 AI 驱动视频剪辑,允许用户查询素材内容、搜索特定的视觉动作,并基于描述性元数据生成序列时间轴。

  • 先决条件:执行前请确保所有输入视频皆已通过 transcribe-audio 技能产生对应的音频逐字稿。

  • 配置:此技能在定义的媒体库(Library)结构内运作;完成后请务必更新 library.yaml 中的 visual_transcript 路径。

  • 性能说明:虽然 ffmpeg 帧提取过程很快,但随后的 LLM 分析依赖 API;建议限制并行任务数为 8,以维持在不同硬件上的稳定性。

  • 工作流程整合:分析完成后,可衔接 summarize-video 技能(使用 Haiku 模型)以产生精简的视频摘要。

  • 非常适合需要通过将原始素材转化为可搜索、且具备丰富元数据的媒体库,进而自动化粗剪流程的剪辑师、创作者与开发者。

仓库统计

Star 数
427
Fork 数
68
Open Issue 数
25
主要语言
Ruby
默认分支
main
同步状态
空闲
最近同步时间
2026年5月1日 07:25
在 GitHub 查看