工程开发
eval-harness avatar

eval-harness

克劳德代码会话的正式评估框架,实施评估驱动开发(EDD)原则,用于保障 AI 代理的可靠性。

简介

Eval Harness 是一个旨在通过评估驱动开发 (EDD) 来强制执行 AI 辅助软件开发高质量标准的综合系统。通过将评估视为 AI 代理的单元测试,它让开发者能在实现功能之前定义成功标准、回归测试套件和可靠性指标。此框架对于希望从概率生成转向可预测、可靠的代理工作流程的团队至关重要。它支持多种评分方法,包括确定性的代码断言、基于 LLM 的模型评分器以及结构化的人工审核流程,确保每一项 AI 生成的贡献都经过项目需求的验证。

  • 定义能力评估测试,确认代理能够执行新的、复杂的逻辑任务。

  • 实施回归测试套件以防止代码偏差,确保先前解决的问题保持稳定。

  • 利用 pass@k 和 pass^k 指标从统计学角度衡量代理响应的可靠性和成功率。

  • 通过编码前的定义阶段与编码后的报告生成,无缝整合至开发生命周期。

  • 在 .claude/evals/ 目录中管理评估构件,便于版本控制与持久的审计日志记录。

  • 在编写任何代码之前,务必在 Markdown 文件中定义评估标准,以确保清晰的成功界限。

  • 尽可能使用基于代码的确定性评分器进行构建、测试和正则表达式检查,以避免不必要的 LLM 开销。

  • 针对定性任务(如检查代码结构、边界情况覆盖率和适当的错误处理)应用基于模型的评分器。

  • 维护运行历史记录以追踪可靠性趋势;若未能监控 pass@k 指标,可能会导致模型性能的侦测不到的退化。

  • 切勿仅依赖自动化检查来处理安全性关键模块;在评估高风险变更时,请务必包含明确的人工审核步骤。

仓库统计

Star 数
169,888
Fork 数
26,327
Open Issue 数
185
主要语言
JavaScript
默认分支
main
同步状态
空闲
最近同步时间
2026年4月29日 13:07
在 GitHub 查看