data_processor
一个多范式 ETL 流水线代理,支持批处理和流式数据处理、自动模式推断及基于 DAG 的可配置转换,适用于异构数据源。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 121 个技能
一个多范式 ETL 流水线代理,支持批处理和流式数据处理、自动模式推断及基于 DAG 的可配置转换,适用于异构数据源。
使用 Lightkurve 进行天文光变曲线预处理与清洁。提供离群值移除、趋势平滑化、去趋势与数据质量标记处理工具,适用于天文时序数据分析。
使用 scikit-learn 进行经典机器学习。适用于分类、回归、聚类、降维、数据预处理、模型评估,以及构建 Python 机器学习流程。
数据分析专家:进行探索性数据分析、统计建模、SQL 查询与 Python 数据可视化,通过严谨的量化方法将原始数据转化为可操作的洞察。
加载并预处理保险保单周度 CSV 数据,支持智能周期检测、多周数据加载、数据验证和清洗。
为 pandas/polars/PySpark 生成数据清洗管道,处理缺失值、重复项、异常值、类型转换及数据验证。
一个模块化的数据处理工具,用于清理、验证和分析 CSV 文件,支持自定义转换及自动化依赖管理。
一个全方位的数据分析助手,支持加载数据集、执行统计计算、可视化趋势并生成专业的分析总结报告。
用于质谱数据处理的 Python 工具包。支持质谱文件导入 (mzML, MGF, MSP)、元数据标准化、峰值过滤,以及代谢组学中的光谱相似度评分(余弦、修正余弦)计算。
构建并编排从数据准备、模型训练、验证到自动化部署的端到端 MLOps 管线。
全方位 Python 医疗 AI 工具包,用于临床数据处理、医学编码转换,以及开发用于 EHR、生理信号和临床预测任务的深度学习模型(如 RETAIN 与 Transformer)。
用于 LLM 后训练(SFT/DPO/RLHF)的高质量数据集策劃指南,涵盖数据格式、质量过滤与收集策略。