数据分析
data-cleaning-pipeline-generator avatar

data-cleaning-pipeline-generator

为 pandas/polars/PySpark 生成数据清洗管道,处理缺失值、重复项、异常值、类型转换及数据验证。

简介

数据清洗管道生成器是一款专为数据科学家、分析师和工程师设计的专业代理技能,旨在自动化处理杂乱数据集的预处理流程。该工具可生成强大且适用于生产环境的 Python 管道,与 pandas、polars 和 PySpark 等主流数据处理库无缝集成。它通过实施数据质量保证的行业最佳实践,简化了从原始脏数据到可用数据集的转变过程。

  • 自动检测并使用统计策略(如平均值、中位数或自定义占位符)解决缺失值问题。

  • 提供针对多列子集或整行匹配的高效去重方法。

  • 包含使用 IQR(四分位距)或 Z 分数统计方法检测和剔除异常值的机制。

  • 执行自动化数据类型转换,包括智能日期/时间解析和类别编码(标签编码或独热编码)。

  • 提供文本标准化功能,例如去除空白和大小写调整。

  • 支持定义数字范围的验证规则,以确保进一步分析前的数据完整性。

  • 当用户要求清理数据集、移除重复项目、修正不一致的数据类型或处理 null/NaN 值时,应触发此技能。

  • 此技能预期输入为表格数据(如 CSV、Parquet 或 SQL 导出文件),并提供模块化的、基于类的 Python 代码,方便集成到现有的笔记本或批处理脚本中。

  • 生成的代码包含日志工具,用于追踪每个清洗步骤的影响,提供数据删除或修改过程的完全透明度。

  • 虽然非常适合标准的 pandas 工作流程,但该逻辑结构同样适用于需要 PySpark 或 Polars 分布式计算能力的大型数据集。

  • 在调用前请确保列名和数据类型定义明确,以确保自动检测功能发挥最大准确度。

仓库统计

Star 数
5
Fork 数
2
Open Issue 数
0
主要语言
TypeScript
默认分支
main
同步状态
空闲
最近同步时间
2026年5月3日 17:23
在 GitHub 查看