工程開發
eval-harness avatar

eval-harness

AI 代理會話的正式評估框架,實施評估驅動開發 (EDD) 原則以確保代理可靠性。

簡介

Eval Harness 是一個旨在透過評估驅動開發 (EDD) 來強制執行 AI 輔助軟體開發高品質標準的綜合系統。透過將評估視為 AI 代理的單元測試,它讓開發者能在實現功能之前定義成功標準、回歸測試套件和可靠性指標。此框架對於希望從機率生成轉向可預測、可靠的代理工作流程的團隊至關重要。它支援多種評分方法,包括確定性的程式碼斷言、基於 LLM 的模型評分器以及結構化的人工審核流程,確保每一項 AI 生成的貢獻都經過專案需求的驗證。

  • 定義能力評估測試,確認代理能夠執行新的、複雜的邏輯任務。

  • 實施回歸測試套件以防止程式碼偏差,確保先前解決的問題保持穩定。

  • 利用 pass@k 和 pass^k 指標從統計學角度衡量代理回應的可靠性和成功率。

  • 透過編碼前的定義階段與編碼後的報告生成,無縫整合至開發生命週期。

  • 在 .claude/evals/ 目錄中管理評估構件,便於版本控制與持久的稽核日誌記錄。

  • 在編寫任何程式碼之前,務必在 Markdown 文件中定義評估標準,以確保清晰的成功界限。

  • 盡可能使用基於程式碼的確定性評分器進行建置、測試和正規表示式檢查,以避免不必要的 LLM 開銷。

  • 針對定性任務(如檢查程式碼結構、邊界情況覆蓋率和適當的錯誤處理)應用基於模型的評分器。

  • 維護執行歷史記錄以追蹤可靠性趨勢;若未能監控 pass@k 指標,可能會導致模型效能的偵測不到的退化。

  • 切勿僅依賴自動化檢查來處理安全性關鍵模組;在評估高風險變更時,請務必包含明確的人工審核步驟。

倉庫統計

Star 數
169,888
Fork 數
26,327
Open Issue 數
185
主要語言
JavaScript
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月29日 下午01:07
在 GitHub 查看