数据分析
fiftyone-find-duplicates avatar

fiftyone-find-duplicates

使用计算机视觉相似度嵌入技术,在 FiftyOne 数据集中查找、查看并移除重复或高度相似的图像。

简介

此技能使 AI 助理能够通过识别并移除冗余内容,自主管理图像数据集质量。通过利用 FiftyOne 强大的大脑相似度计算功能,代理程序可以计算图像嵌入、确定相似度索引,并根据可配置的距离阈值标记重复项。它专为需要清理大规模计算机视觉数据集的数据科学家、机器学习工程师和数据标注人员设计,以提高训练数据效率并减少因数据重复导致的模型过拟合问题。

工作流程引导代理程序完成数据集策展的整个生命周期:从初始环境设置和插件验证,到计算密集型的相似度运算,以及最终的手动或自动审查。代理程序使用 FiftyOne 算子来处理精确的字节级匹配和接近重复的视觉模式,从而精确控制何者被视为重复。

  • 使用 mobilenet-v2-imagenet-torch 等预训练模型计算图像嵌入,以量化视觉相似度。

  • 支持使用可自定义的距离阈值(例如 0.1 为近乎精确,0.3 为建议的相似图像)自动或手动识别相似图像。

  • 与 FiftyOne App 深度集成以进行视觉验证,使用户能够审查重复组、加载代表样本的保存视图,并交互式删除冗余样本。

  • 包含针对基于文件的精确去重和复杂语义相似图像移除的专用工作流程。

  • 管理与 FiftyOne Brain 插件 (@voxel51/brain) 的交互,以处理高性能相似度索引。

  • 先决条件:需要 FiftyOne Python 库、已初始化的 FiftyOne 数据集以及安装 @voxel51/brain 插件。

  • 输入:需要有效的数据集名称和可选的阈值参数;输出为已清理且优化样本分布的数据集。

  • 操作限制:取决于嵌入计算所需的本地或远程机器性能;大型数据集可能需要大量的内存或 GPU 资源。

  • 最佳实践:在执行大脑算子之前,请务必在会话上下文中启动 FiftyOne App,以确保 GUI 状态同步。

  • 使用技巧:在调用最终的去重算子之前,利用已建立的保存视图(如 'near duplicates' 或 'representatives')来加速审核流程。

仓库统计

Star 数
26
Fork 数
5
Open Issue 数
8
主要语言
JavaScript
默认分支
main
同步状态
空闲
最近同步时间
2026年5月3日 16:24
在 GitHub 查看