工程開發
eval-harness
AI 代理會話的正式評估框架,實施評估驅動開發 (EDD) 原則以確保代理可靠性。
簡介
Eval Harness 是一個旨在透過評估驅動開發 (EDD) 來強制執行 AI 輔助軟體開發高品質標準的綜合系統。透過將評估視為 AI 代理的單元測試,它讓開發者能在實現功能之前定義成功標準、回歸測試套件和可靠性指標。此框架對於希望從機率生成轉向可預測、可靠的代理工作流程的團隊至關重要。它支援多種評分方法,包括確定性的程式碼斷言、基於 LLM 的模型評分器以及結構化的人工審核流程,確保每一項 AI 生成的貢獻都經過專案需求的驗證。
-
定義能力評估測試,確認代理能夠執行新的、複雜的邏輯任務。
-
實施回歸測試套件以防止程式碼偏差,確保先前解決的問題保持穩定。
-
利用 pass@k 和 pass^k 指標從統計學角度衡量代理回應的可靠性和成功率。
-
透過編碼前的定義階段與編碼後的報告生成,無縫整合至開發生命週期。
-
在 .claude/evals/ 目錄中管理評估構件,便於版本控制與持久的稽核日誌記錄。
-
在編寫任何程式碼之前,務必在 Markdown 文件中定義評估標準,以確保清晰的成功界限。
-
盡可能使用基於程式碼的確定性評分器進行建置、測試和正規表示式檢查,以避免不必要的 LLM 開銷。
-
針對定性任務(如檢查程式碼結構、邊界情況覆蓋率和適當的錯誤處理)應用基於模型的評分器。
-
維護執行歷史記錄以追蹤可靠性趨勢;若未能監控 pass@k 指標,可能會導致模型效能的偵測不到的退化。
-
切勿僅依賴自動化檢查來處理安全性關鍵模組;在評估高風險變更時,請務必包含明確的人工審核步驟。
倉庫統計
- Star 數
- 169,888
- Fork 數
- 26,327
- Open Issue 數
- 185
- 主要語言
- JavaScript
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月29日 下午01:07