data-cleaning-pipeline-generator

简介

数据清洗管道生成器是一款专为数据科学家、分析师和工程师设计的专业代理技能，旨在自动化处理杂乱数据集的预处理流程。该工具可生成强大且适用于生产环境的 Python 管道，与 pandas、polars 和 PySpark 等主流数据处理库无缝集成。它通过实施数据质量保证的行业最佳实践，简化了从原始脏数据到可用数据集的转变过程。

自动检测并使用统计策略（如平均值、中位数或自定义占位符）解决缺失值问题。
提供针对多列子集或整行匹配的高效去重方法。
包含使用 IQR（四分位距）或 Z 分数统计方法检测和剔除异常值的机制。
执行自动化数据类型转换，包括智能日期/时间解析和类别编码（标签编码或独热编码）。
提供文本标准化功能，例如去除空白和大小写调整。
支持定义数字范围的验证规则，以确保进一步分析前的数据完整性。
当用户要求清理数据集、移除重复项目、修正不一致的数据类型或处理 null/NaN 值时，应触发此技能。
此技能预期输入为表格数据（如 CSV、Parquet 或 SQL 导出文件），并提供模块化的、基于类的 Python 代码，方便集成到现有的笔记本或批处理脚本中。
生成的代码包含日志工具，用于追踪每个清洗步骤的影响，提供数据删除或修改过程的完全透明度。
虽然非常适合标准的 pandas 工作流程，但该逻辑结构同样适用于需要 PySpark 或 Polars 分布式计算能力的大型数据集。
在调用前请确保列名和数据类型定义明确，以确保自动检测功能发挥最大准确度。

创业课程

在线课程

实体课程

data-cleaning-pipeline-generator

简介

仓库统计