工程开发数据分析研究
evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
浏览: 23★ 15,339
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 243 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
为 OpenClaw 技能开发提供多代理迭代优化与品质把关,通过标准化测试与生命周期管理提升技能效能。
验证 n8n 表达式语法,执行上下文感知测试,检测常见陷阱,并优化工作流程中的数据转换。
indiiOS 的自动递归执行引擎,负责管理任务完成、状态验证与错误处理。
使用三个专业 AI 代理(正确性、代码健康度、UX)组成的团队进行协作式 PR 审查,讨论并达成共识后发布包含行内注释的结构化审查摘要。
分析 GA4 与 GSC 数据,通过自动化基准测试、状态指标及可执行的内容优化建议,提升网站成效。
自动化会话清理与文档管理工具。主动更新 CLAUDE.md、检测自动化模式、提取学习心得并整理待办事项。
使用“升级时刻方法”重新设计 SaaS 付费墙与升级页面,最大化转换率。
验证 dotfiles 是否正确建立符号链接与同步,确保开发环境配置状态健康与一致性。
Neuropixels 神经记录分析工具。提供从 SpikeGLX/OpenEphys 数据加载、Kilosort4 Spike Sorting、运动校正、质量指标计算到 AI 辅助单元筛选的端到端分析流程。
Home Assistant OS (HAOS) 运维技能。提供只读诊断、自动化设计、健康审计及安全优先的配置管理功能。
根据结构化规范架构企业 AI 代理,生成生产就绪代码、数据流图以及适用于 ServiceNow、Salesforce 和 Snowflake 的平台特定逻辑。