数据分析工程开发自动化
data-cleaning-pipeline-generator
为 pandas/polars/PySpark 生成数据清洗管道,处理缺失值、重复项、异常值、类型转换及数据验证。
浏览: 10★ 5
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 129 个技能
为 pandas/polars/PySpark 生成数据清洗管道,处理缺失值、重复项、异常值、类型转换及数据验证。
加载并预处理保险保单周度 CSV 数据,支持智能周期检测、多周数据加载、数据验证和清洗。
一个全方位的数据分析助手,支持加载数据集、执行统计计算、可视化趋势并生成专业的分析总结报告。
一个模块化的数据处理工具,用于清理、验证和分析 CSV 文件,支持自定义转换及自动化依赖管理。
用于 LLM 后训练(SFT/DPO/RLHF)的高质量数据集策劃指南,涵盖数据格式、质量过滤与收集策略。
自动化移除代码中多余或显而易见的注释,同时保留重要的架构与逻辑说明,优化代码的可读性与质量。
研究技术文档并自动生成可直接使用的 Markdown 格式软件代理技能。
基于 scverse 最佳实践的自动化单细胞 RNA-seq 质量控制工具。支持 .h5ad 与 .h5 格式,提供 MAD 离群值检测、细胞过滤及统计可视化分析。
实现强大的服务器端与客户端输入验证,运用清理与白名单机制,预防注入攻击并确保数据完整性。
数据分析专家:进行探索性数据分析、统计建模、SQL 查询与 Python 数据可视化,通过严谨的量化方法将原始数据转化为可操作的洞察。
使用 Lightkurve 进行天文光变曲线预处理与清洁。提供离群值移除、趋势平滑化、去趋势与数据质量标记处理工具,适用于天文时序数据分析。
为 Clawdbot 审计、清理和优化向量内存。防止 Token 浪费,清除无效垃圾数据,并通过 LanceDB 维护自动化内存清洁。