工程開發
evaluation
AI 代理系統評估框架,包含 LLM-as-judge 指標、多維度評分標準、品質閘控與回歸測試,用於衡量效能並驗證上下文工程成果。
安裝
Agent 類型
Claude Code
安裝指令 (macOS)
curl -fsSL "https://mentalok.io/api/v1/skills/evaluation/install?os=mac&agent=claude" | bash
安裝指令 (Windows)
curl -L "https://mentalok.io/api/v1/skills/evaluation/install?os=windows&agent=claude" -o install-evaluation.bat && install-evaluation.bat
下載安裝腳本
下載技能專案