工程開發
gemini-video-understanding avatar

gemini-video-understanding

使用 Google Gemini API 進行深度影片分析:包含影片摘要、音訊轉錄、時間戳記提取、影片片段剪輯,並支援 YouTube 連結或本機檔案,適用於多種模型與長文本脈絡。

簡介

Gemini Video Understanding 技能為開發者、研究人員及內容創作者提供了一個強大的介面,運用 Google 最先進的多模態 AI 模型進行複雜的影片處理任務。此工具直接整合至代理工作流程中,能夠協助使用者從影片數據中獲取深度洞察。無論是處理大規模教育內容、自動化轉錄流程,還是進行快速內容索引,該技能都能透過與 Gemini 2.5 Pro 和 Flash 模型互動來完成繁重的工作,並利用其高達 200 萬 token 的超長上下文視窗,在單次請求中分析長達數小時的影片。除了支援 MP4、MOV 和 AVI 等多種格式的本機檔案外,還能直接處理 YouTube 連結,為各種數據管線提供了極高的靈活性。

  • 執行細緻的影片摘要,將數小時的影片濃縮為關鍵要點。

  • 高準確度轉錄音訊,並同步提供螢幕事件的視覺描述。

  • 利用精確的時間戳記 (MM:SS) 來標記特定時刻,方便稽核或引用。

  • 透過簡單的指令參數定義開始與結束偏移,實現自動化影片剪輯。

  • 使用 Gemini 2.5 架構同時對多個影片進行比對與分析。

  • 調整影格率 (FPS) 採樣,以在處理速度與分析深度之間取得平衡。

  • 支援 Gemini 2.5-pro、2.5-flash 及 2.0-flash 系列模型,滿足不同的效能需求。

  • 在執行前,請確保 GEMINI_API_KEY 已透過環境變數或本地 .env 檔案正確設定。

  • 利用內建的 Python 指令碼來處理複雜任務,例如多影片比對或自訂影格採樣。

  • 請注意 token 限制;雖然 200 萬的上下文視窗非常強大,但較高的解析度處理會增加每秒的消耗量。

  • 請注意,YouTube 分析功能僅支援公開影片;不支援私人或未公開影片。

  • 此工具非常適合用於建立可搜尋的詮釋資料、教育測驗、動作偵測以及自動化內容審核工作流程。

  • 透過選擇適當的模型來最大化效能,例如選擇 2.5-flash 以進行快速任務,或選擇 2.5-pro 以進行高精確度的分析推理。

倉庫統計

Star 數
1
Fork 數
0
Open Issue 數
0
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月4日 上午01:34
在 GitHub 查看