training-data-curation
用於 LLM 後訓練(SFT/DPO/RLHF)的高品質數據集策劃指南,涵蓋數據格式、品質過濾與收集策略。
簡介
training-data-curation 技能為大型語言模型 (LLM) 後訓練過程中所使用的數據集提供組裝、清理和格式化的綜合框架。無論您是在執行監督式微調 (SFT)、直接偏好優化 (DPO) 還是來自人類反饋的強化學習 (RLHF),此技能都是您構建驅動模型性能數據集的權威參考。它專為機器學習工程師、數據科學家和 AI 研究人員設計,旨在協助改進模型對齊、減少偏差並確保訓練數據符合專業標準。透過專注於「品質勝於數量」的準則,此工具協助您避免諸如數據中毒、格式不一致和數據集雜訊等常見問題。
-
針對 SFT 的標準化格式協議,使用基於訊息的 JSONL 結構,提升與標準訓練器的相容性。
-
偏好學習的結構化指南,包括用於 DPO、ORPO 和 KTO 的配對技術,以及用於 RLHF 的排序策略。
-
涵蓋重複刪除、PII 辨識、樣板過濾與人工檢查工作流程的品質控制檢查清單。
-
用於數據集健康的技術啟發式方法,包括 N-gram 重複分析、字母與字元比例檢查,以及使用 fastText 進行語言識別。
-
從實驗數據集 (100 條樣本) 到大規模指令微調 (10 萬條+) 及龐大的 RLHF 偏好池的規模基準。
-
在啟動訓練任務前,請務必根據 OpenAI 或 Tinker API 等訊息規格驗證數據模式。
-
對於大規模數據集,使用如 Parquet 等高效序列化格式,以減少 I/O 瓶頸並實現壓縮。
-
實作 MinHash 去重以消除近乎重複的條目,這對於防止過擬合與維持數據多樣性至關重要。
-
嚴格注意數據來源許可與倫理數據收集,以符合數據溯源倡議 (Data Provenance Initiative) 的標準。
-
將合成數據視為次要來源;針對高風險微調任務,請優先使用人工標註的範例,以確保模型可靠性與事實準確性。
倉庫統計
- Star 數
- 149
- Fork 數
- 8
- Open Issue 數
- 1
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月1日 上午09:02