工程开发
eval-harness
克劳德代码会话的正式评估框架,实施评估驱动开发(EDD)原则,用于保障 AI 代理的可靠性。
简介
Eval Harness 是一个旨在通过评估驱动开发 (EDD) 来强制执行 AI 辅助软件开发高质量标准的综合系统。通过将评估视为 AI 代理的单元测试,它让开发者能在实现功能之前定义成功标准、回归测试套件和可靠性指标。此框架对于希望从概率生成转向可预测、可靠的代理工作流程的团队至关重要。它支持多种评分方法,包括确定性的代码断言、基于 LLM 的模型评分器以及结构化的人工审核流程,确保每一项 AI 生成的贡献都经过项目需求的验证。
-
定义能力评估测试,确认代理能够执行新的、复杂的逻辑任务。
-
实施回归测试套件以防止代码偏差,确保先前解决的问题保持稳定。
-
利用 pass@k 和 pass^k 指标从统计学角度衡量代理响应的可靠性和成功率。
-
通过编码前的定义阶段与编码后的报告生成,无缝整合至开发生命周期。
-
在 .claude/evals/ 目录中管理评估构件,便于版本控制与持久的审计日志记录。
-
在编写任何代码之前,务必在 Markdown 文件中定义评估标准,以确保清晰的成功界限。
-
尽可能使用基于代码的确定性评分器进行构建、测试和正则表达式检查,以避免不必要的 LLM 开销。
-
针对定性任务(如检查代码结构、边界情况覆盖率和适当的错误处理)应用基于模型的评分器。
-
维护运行历史记录以追踪可靠性趋势;若未能监控 pass@k 指标,可能会导致模型性能的侦测不到的退化。
-
切勿仅依赖自动化检查来处理安全性关键模块;在评估高风险变更时,请务必包含明确的人工审核步骤。
仓库统计
- Star 数
- 169,888
- Fork 数
- 26,327
- Open Issue 数
- 185
- 主要语言
- JavaScript
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月29日 13:07