training-data-curation

简介

training-data-curation 技能为大型语言模型 (LLM) 后训练过程中所使用的数据集提供组装、清理和格式化的综合框架。无论您是在执行监督式微调 (SFT)、直接偏好优化 (DPO) 还是来自人类反馈的强化学习 (RLHF)，此技能都是您构建驱动模型性能数据集的权威参考。它专为机器学习工程师、数据科学家和 AI 研究人员设计，旨在协助改进模型对齐、减少偏差并确保训练数据符合专业标准。通过专注于“质量胜于数量”的准则，此工具协助您避免诸如数据中毒、格式不一致和数据集杂讯等常见问题。

针对 SFT 的标准化格式协议，使用基于消息的 JSONL 结构，提升与标准训练器的兼容性。
偏好学习的结构化指南，包括用于 DPO、ORPO 和 KTO 的配对技术，以及用于 RLHF 的排序策略。
涵盖重复删除、PII 识别、样板过滤与人工检查工作流程的质量控制检查清单。
用于数据集健康的技术启发式方法，包括 N-gram 重复分析、字母与字符比例检查，以及使用 fastText 进行语言识别。
从实验数据集 (100 条样本) 到大规模指令微调 (10 万条+) 及庞大的 RLHF 偏好池的规模基准。
在启动训练任务前，请务必根据 OpenAI 或 Tinker API 等消息规格验证数据模式。
对于大规模数据集，使用如 Parquet 等高效序列化格式，以减少 I/O 瓶颈并实现压缩。
实作 MinHash 去重以消除近乎重复的条目，这对于防止过拟合与维持数据多样性至关重要。
严格注意数据来源许可与伦理数据收集，以符合数据溯源倡议 (Data Provenance Initiative) 的标准。
将合成数据视为次要来源；针对高风险微调任务，请优先使用人工标注的范例，以确保模型可靠性与事实准确性。

创业课程

在线课程

实体课程

training-data-curation

简介

仓库统计