資料分析
fiftyone-find-duplicates avatar

fiftyone-find-duplicates

使用電腦視覺相似度嵌入技術,在 FiftyOne 資料集中尋找、檢視並移除重複或高度相似的圖像。

簡介

此技能使 AI 助理能夠透過識別並移除冗餘內容,自主管理圖像資料集品質。透過利用 FiftyOne 強大的大腦相似度計算功能,代理程式可以計算圖像嵌入、確定相似度索引,並根據可配置的距離閾值標記重複項。它專為需要清理大規模電腦視覺資料集的資料科學家、機器學習工程師和資料標註人員設計,以提高訓練資料效率並減少因資料重複導致的模型過擬合問題。

工作流程引導代理程式完成資料集策展的整個生命週期:從初始環境設定和外掛程式驗證,到計算密集型的相似度運算,以及最終的手動或自動審查。代理程式使用 FiftyOne 運算元來處理精確的位元組級匹配和接近重複的視覺模式,從而精確控制何者被視為重複。

  • 使用 mobilenet-v2-imagenet-torch 等預訓練模型計算圖像嵌入,以量化視覺相似度。

  • 支援使用可自訂的距離閾值(例如 0.1 為近乎精確,0.3 為建議的相似圖像)自動或手動識別相似圖像。

  • 與 FiftyOne App 深度整合以進行視覺驗證,使用戶能夠審查重複群組、載入代表樣本的儲存視圖,並互動式刪除冗餘樣本。

  • 包含針對基於檔案的精確去重和複雜語義相似圖像移除的專用工作流程。

  • 管理與 FiftyOne Brain 外掛程式 (@voxel51/brain) 的互動,以處理高效能相似度索引。

  • 先決條件:需要 FiftyOne Python 函式庫、已初始化的 FiftyOne 資料集以及安裝 @voxel51/brain 外掛程式。

  • 輸入:需要有效的資料集名稱和選用的閾值參數;輸出為已清理且優化樣本分佈的資料集。

  • 操作限制:取決於嵌入計算所需的本地或遠端機器效能;大型資料集可能需要大量的記憶體或 GPU 資源。

  • 最佳實踐:在執行大腦運算元之前,請務必在工作階段上下文中啟動 FiftyOne App,以確保 GUI 狀態同步。

  • 使用技巧:在呼叫最終的去重運算元之前,利用已建立的儲存視圖(如 'near duplicates' 或 'representatives')來加速審核流程。

倉庫統計

Star 數
26
Fork 數
5
Open Issue 數
8
主要語言
JavaScript
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月3日 下午04:24
在 GitHub 查看