工程开发
training-data-curation avatar

training-data-curation

用于 LLM 后训练(SFT/DPO/RLHF)的高质量数据集策劃指南,涵盖数据格式、质量过滤与收集策略。

简介

training-data-curation 技能为大型语言模型 (LLM) 后训练过程中所使用的数据集提供组装、清理和格式化的综合框架。无论您是在执行监督式微调 (SFT)、直接偏好优化 (DPO) 还是来自人类反馈的强化学习 (RLHF),此技能都是您构建驱动模型性能数据集的权威参考。它专为机器学习工程师、数据科学家和 AI 研究人员设计,旨在协助改进模型对齐、减少偏差并确保训练数据符合专业标准。通过专注于“质量胜于数量”的准则,此工具协助您避免诸如数据中毒、格式不一致和数据集杂讯等常见问题。

  • 针对 SFT 的标准化格式协议,使用基于消息的 JSONL 结构,提升与标准训练器的兼容性。

  • 偏好学习的结构化指南,包括用于 DPO、ORPO 和 KTO 的配对技术,以及用于 RLHF 的排序策略。

  • 涵盖重复删除、PII 识别、样板过滤与人工检查工作流程的质量控制检查清单。

  • 用于数据集健康的技术启发式方法,包括 N-gram 重复分析、字母与字符比例检查,以及使用 fastText 进行语言识别。

  • 从实验数据集 (100 条样本) 到大规模指令微调 (10 万条+) 及庞大的 RLHF 偏好池的规模基准。

  • 在启动训练任务前,请务必根据 OpenAI 或 Tinker API 等消息规格验证数据模式。

  • 对于大规模数据集,使用如 Parquet 等高效序列化格式,以减少 I/O 瓶颈并实现压缩。

  • 实作 MinHash 去重以消除近乎重复的条目,这对于防止过拟合与维持数据多样性至关重要。

  • 严格注意数据来源许可与伦理数据收集,以符合数据溯源倡议 (Data Provenance Initiative) 的标准。

  • 将合成数据视为次要来源;针对高风险微调任务,请优先使用人工标注的范例,以确保模型可靠性与事实准确性。

仓库统计

Star 数
149
Fork 数
8
Open Issue 数
1
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年5月1日 09:02
在 GitHub 查看