eval-harness

簡介

Eval Harness 是一個旨在透過評估驅動開發 (EDD) 來強制執行 AI 輔助軟體開發高品質標準的綜合系統。透過將評估視為 AI 代理的單元測試，它讓開發者能在實現功能之前定義成功標準、回歸測試套件和可靠性指標。此框架對於希望從機率生成轉向可預測、可靠的代理工作流程的團隊至關重要。它支援多種評分方法，包括確定性的程式碼斷言、基於 LLM 的模型評分器以及結構化的人工審核流程，確保每一項 AI 生成的貢獻都經過專案需求的驗證。

定義能力評估測試，確認代理能夠執行新的、複雜的邏輯任務。
實施回歸測試套件以防止程式碼偏差，確保先前解決的問題保持穩定。
利用 pass@k 和 pass^k 指標從統計學角度衡量代理回應的可靠性和成功率。
透過編碼前的定義階段與編碼後的報告生成，無縫整合至開發生命週期。
在 .claude/evals/ 目錄中管理評估構件，便於版本控制與持久的稽核日誌記錄。
在編寫任何程式碼之前，務必在 Markdown 文件中定義評估標準，以確保清晰的成功界限。
盡可能使用基於程式碼的確定性評分器進行建置、測試和正規表示式檢查，以避免不必要的 LLM 開銷。
針對定性任務（如檢查程式碼結構、邊界情況覆蓋率和適當的錯誤處理）應用基於模型的評分器。
維護執行歷史記錄以追蹤可靠性趨勢；若未能監控 pass@k 指標，可能會導致模型效能的偵測不到的退化。
切勿僅依賴自動化檢查來處理安全性關鍵模組；在評估高風險變更時，請務必包含明確的人工審核步驟。

創業課程

網上課程

實體課程

簡介

倉庫統計