eval-harness

简介

Eval Harness 是一个旨在通过评估驱动开发 (EDD) 来强制执行 AI 辅助软件开发高质量标准的综合系统。通过将评估视为 AI 代理的单元测试，它让开发者能在实现功能之前定义成功标准、回归测试套件和可靠性指标。此框架对于希望从概率生成转向可预测、可靠的代理工作流程的团队至关重要。它支持多种评分方法，包括确定性的代码断言、基于 LLM 的模型评分器以及结构化的人工审核流程，确保每一项 AI 生成的贡献都经过项目需求的验证。

定义能力评估测试，确认代理能够执行新的、复杂的逻辑任务。
实施回归测试套件以防止代码偏差，确保先前解决的问题保持稳定。
利用 pass@k 和 pass^k 指标从统计学角度衡量代理响应的可靠性和成功率。
通过编码前的定义阶段与编码后的报告生成，无缝整合至开发生命周期。
在 .claude/evals/ 目录中管理评估构件，便于版本控制与持久的审计日志记录。
在编写任何代码之前，务必在 Markdown 文件中定义评估标准，以确保清晰的成功界限。
尽可能使用基于代码的确定性评分器进行构建、测试和正则表达式检查，以避免不必要的 LLM 开销。
针对定性任务（如检查代码结构、边界情况覆盖率和适当的错误处理）应用基于模型的评分器。
维护运行历史记录以追踪可靠性趋势；若未能监控 pass@k 指标，可能会导致模型性能的侦测不到的退化。
切勿仅依赖自动化检查来处理安全性关键模块；在评估高风险变更时，请务必包含明确的人工审核步骤。

创业课程

在线课程

实体课程

简介

仓库统计