analyze-video
透過 ffmpeg 提取並分析影片幀,為音訊逐字稿添加視覺描述,從而為基於 LLM 的影片剪輯流程提供視覺上下文。
簡介
analyze-video 技能是 ButterCut 工作流程中的關鍵組件,用於連結原始影片素材與結構化編輯數據。透過運用 ffmpeg 進行定時影格提取,此技能將靜態影片內容轉化為機器可讀的格式。這些提取出的 JPG 影格會經過分析以產生週期性的視覺描述,並將其附加至既有的音訊逐字稿中。此過程會產生一份詳盡的視覺逐字稿,使 Claude 或其他 AI 代理能夠「看見」影片,從而為在 Final Cut Pro、Premiere Pro 和 DaVinci Resolve 等專業非線性剪輯軟體(NLE)中進行粗剪與序列創建提供明智的編輯決策。
-
使用高效能 ffmpeg 程序進行自動化影格提取,實現高效導入。
-
與 WhisperX 等工具生成的音訊逐字稿無縫整合。
-
產生將視覺事件與音訊區段相關聯的結構化 JSON 視覺逐字稿。
-
支援高達 8 個任務的平行執行,在不導致系統超載的情況下優化 CPU/GPU 使用率。
-
支援先進的 AI 驅動影片剪輯,允許使用者查詢素材內容、搜尋特定的視覺動作,並基於描述性元數據生成序列時間軸。
-
先決條件:執行前請確保所有輸入影片皆已透過 transcribe-audio 技能產生對應的音訊逐字稿。
-
配置:此技能在定義的媒體庫(Library)結構內運作;完成後請務必更新 library.yaml 中的 visual_transcript 路徑。
-
效能說明:雖然 ffmpeg 影格提取過程很快,但隨後的 LLM 分析依賴 API;建議限制並行任務數為 8,以維持在不同硬體上的穩定性。
-
工作流程整合:分析完成後,可銜接 summarize-video 技能(使用 Haiku 模型)以產生精簡的影片摘要。
-
非常適合需要透過將原始素材轉化為可搜尋、且具備豐富元數據的媒體庫,進而自動化粗剪流程的剪輯師、創作者與開發者。
倉庫統計
- Star 數
- 427
- Fork 數
- 68
- Open Issue 數
- 25
- 主要語言
- Ruby
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月1日 上午07:25