工程开发数据分析研究
training-data-curation
用于 LLM 后训练(SFT/DPO/RLHF)的高质量数据集策劃指南,涵盖数据格式、质量过滤与收集策略。
浏览: 10★ 149
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 138 个技能
用于 LLM 后训练(SFT/DPO/RLHF)的高质量数据集策劃指南,涵盖数据格式、质量过滤与收集策略。
一个多范式 ETL 流水线代理,支持批处理和流式数据处理、自动模式推断及基于 DAG 的可配置转换,适用于异构数据源。
战略性测试数据生成、管理与隐私合规,用于构建可扩展、安全且逼真的质量工程工作流。
提供用于药物开发的 AI 就绪数据集、基准测试与分子预测工具,涵盖 ADME、毒性、药物-目标交互作用及分子生成任务。
数据分析专家:进行探索性数据分析、统计建模、SQL 查询与 Python 数据可视化,通过严谨的量化方法将原始数据转化为可操作的洞察。
高性能文档智能库,可从 91 种以上文件格式中提取文本、表格、代码及元数据,支持 OCR 及 LLM 友好输出。
使用 scikit-learn 进行经典机器学习。适用于分类、回归、聚类、降维、数据预处理、模型评估,以及构建 Python 机器学习流程。
提升图像质量、分辨率与清晰度,专为屏幕截图与数字媒体设计。适用于专业文档、博客与演示文稿。
使用结构化 JSON 提示词与自动化 Python 脚本生成高质量的图像、角色与场景,支持参考图像以进行精确的视觉创作。
使用 Google Gemini 3 Pro 模型生成与编辑图像、图表和信息图表。支持文本转图像、风格转换及数据准确的视觉化创作。
为 pandas/polars/PySpark 生成数据清洗管道,处理缺失值、重复项、异常值、类型转换及数据验证。
使用 ImageMagick 处理和操作图像。支持调整大小、格式转换、批量处理及检索图像元数据,适合开发人员与自动化工作流程。