training-data-curation

簡介

training-data-curation 技能為大型語言模型 (LLM) 後訓練過程中所使用的數據集提供組裝、清理和格式化的綜合框架。無論您是在執行監督式微調 (SFT)、直接偏好優化 (DPO) 還是來自人類反饋的強化學習 (RLHF)，此技能都是您構建驅動模型性能數據集的權威參考。它專為機器學習工程師、數據科學家和 AI 研究人員設計，旨在協助改進模型對齊、減少偏差並確保訓練數據符合專業標準。透過專注於「品質勝於數量」的準則，此工具協助您避免諸如數據中毒、格式不一致和數據集雜訊等常見問題。

針對 SFT 的標準化格式協議，使用基於訊息的 JSONL 結構，提升與標準訓練器的相容性。
偏好學習的結構化指南，包括用於 DPO、ORPO 和 KTO 的配對技術，以及用於 RLHF 的排序策略。
涵蓋重複刪除、PII 辨識、樣板過濾與人工檢查工作流程的品質控制檢查清單。
用於數據集健康的技術啟發式方法，包括 N-gram 重複分析、字母與字元比例檢查，以及使用 fastText 進行語言識別。
從實驗數據集 (100 條樣本) 到大規模指令微調 (10 萬條+) 及龐大的 RLHF 偏好池的規模基準。
在啟動訓練任務前，請務必根據 OpenAI 或 Tinker API 等訊息規格驗證數據模式。
對於大規模數據集，使用如 Parquet 等高效序列化格式，以減少 I/O 瓶頸並實現壓縮。
實作 MinHash 去重以消除近乎重複的條目，這對於防止過擬合與維持數據多樣性至關重要。
嚴格注意數據來源許可與倫理數據收集，以符合數據溯源倡議 (Data Provenance Initiative) 的標準。
將合成數據視為次要來源；針對高風險微調任務，請優先使用人工標註的範例，以確保模型可靠性與事實準確性。

創業課程

網上課程

實體課程

training-data-curation

簡介

倉庫統計