資料分析
data-cleaning-pipeline-generator
為 pandas/polars/PySpark 生成數據清洗管道,處理缺失值、重複項、異常值、類型轉換及數據驗證。
簡介
數據清洗管道生成器是一款專為數據科學家、分析師和工程師設計的專業代理技能,旨在自動化處理雜亂數據集的預處理流程。該工具可生成強大且適用於生產環境的 Python 管道,與 pandas、polars 和 PySpark 等主流數據處理庫無縫集成。它透過實施數據質量保證的行業最佳實踐,簡化了從原始髒數據到可用數據集的轉變過程。
-
自動檢測並使用統計策略(如平均值、中位數或自定義占位符)解決缺失值問題。
-
提供針對多列子集或整行匹配的高效去重方法。
-
包含使用 IQR(四分位距)或 Z 分數統計方法檢測和剔除異常值的機制。
-
執行自動化數據類型轉換,包括智慧日期/時間解析和類別編碼(標籤編碼或獨熱編碼)。
-
提供文本標準化功能,例如去除空白和大小寫調整。
-
支持定義數字範圍的驗證規則,以確保進一步分析前的數據完整性。
-
當使用者要求清理數據集、移除重複項目、修正不一致的數據類型或處理 null/NaN 值時,應觸發此技能。
-
此技能預期輸入為表格數據(如 CSV、Parquet 或 SQL 導出文件),並提供模組化的、基於類的 Python 代碼,方便集成到現有的筆記本或批次腳本中。
-
生成的代碼包含日誌工具,用於追蹤每個清洗步驟的影響,提供數據刪除或修改過程的完全透明度。
-
雖然非常適合標準的 pandas 工作流程,但該邏輯結構同樣適用於需要 PySpark 或 Polars 分佈式計算能力的大型數據集。
-
在調用前請確保列名和數據類型定義明確,以確保自動檢測功能發揮最大準確度。
倉庫統計
- Star 數
- 5
- Fork 數
- 2
- Open Issue 數
- 0
- 主要語言
- TypeScript
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月3日 下午05:23