資料分析
data-cleaning-pipeline-generator avatar

data-cleaning-pipeline-generator

為 pandas/polars/PySpark 生成數據清洗管道,處理缺失值、重複項、異常值、類型轉換及數據驗證。

簡介

數據清洗管道生成器是一款專為數據科學家、分析師和工程師設計的專業代理技能,旨在自動化處理雜亂數據集的預處理流程。該工具可生成強大且適用於生產環境的 Python 管道,與 pandas、polars 和 PySpark 等主流數據處理庫無縫集成。它透過實施數據質量保證的行業最佳實踐,簡化了從原始髒數據到可用數據集的轉變過程。

  • 自動檢測並使用統計策略(如平均值、中位數或自定義占位符)解決缺失值問題。

  • 提供針對多列子集或整行匹配的高效去重方法。

  • 包含使用 IQR(四分位距)或 Z 分數統計方法檢測和剔除異常值的機制。

  • 執行自動化數據類型轉換,包括智慧日期/時間解析和類別編碼(標籤編碼或獨熱編碼)。

  • 提供文本標準化功能,例如去除空白和大小寫調整。

  • 支持定義數字範圍的驗證規則,以確保進一步分析前的數據完整性。

  • 當使用者要求清理數據集、移除重複項目、修正不一致的數據類型或處理 null/NaN 值時,應觸發此技能。

  • 此技能預期輸入為表格數據(如 CSV、Parquet 或 SQL 導出文件),並提供模組化的、基於類的 Python 代碼,方便集成到現有的筆記本或批次腳本中。

  • 生成的代碼包含日誌工具,用於追蹤每個清洗步驟的影響,提供數據刪除或修改過程的完全透明度。

  • 雖然非常適合標準的 pandas 工作流程,但該邏輯結構同樣適用於需要 PySpark 或 Polars 分佈式計算能力的大型數據集。

  • 在調用前請確保列名和數據類型定義明確,以確保自動檢測功能發揮最大準確度。

倉庫統計

Star 數
5
Fork 數
2
Open Issue 數
0
主要語言
TypeScript
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月3日 下午05:23
在 GitHub 查看