data-cleaning-pipeline-generator

簡介

數據清洗管道生成器是一款專為數據科學家、分析師和工程師設計的專業代理技能，旨在自動化處理雜亂數據集的預處理流程。該工具可生成強大且適用於生產環境的 Python 管道，與 pandas、polars 和 PySpark 等主流數據處理庫無縫集成。它透過實施數據質量保證的行業最佳實踐，簡化了從原始髒數據到可用數據集的轉變過程。

自動檢測並使用統計策略（如平均值、中位數或自定義占位符）解決缺失值問題。
提供針對多列子集或整行匹配的高效去重方法。
包含使用 IQR（四分位距）或 Z 分數統計方法檢測和剔除異常值的機制。
執行自動化數據類型轉換，包括智慧日期/時間解析和類別編碼（標籤編碼或獨熱編碼）。
提供文本標準化功能，例如去除空白和大小寫調整。
支持定義數字範圍的驗證規則，以確保進一步分析前的數據完整性。
當使用者要求清理數據集、移除重複項目、修正不一致的數據類型或處理 null/NaN 值時，應觸發此技能。
此技能預期輸入為表格數據（如 CSV、Parquet 或 SQL 導出文件），並提供模組化的、基於類的 Python 代碼，方便集成到現有的筆記本或批次腳本中。
生成的代碼包含日誌工具，用於追蹤每個清洗步驟的影響，提供數據刪除或修改過程的完全透明度。
雖然非常適合標準的 pandas 工作流程，但該邏輯結構同樣適用於需要 PySpark 或 Polars 分佈式計算能力的大型數據集。
在調用前請確保列名和數據類型定義明確，以確保自動檢測功能發揮最大準確度。

創業課程

網上課程

實體課程

data-cleaning-pipeline-generator

簡介

倉庫統計