工程開發
evaluation avatar

evaluation

為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。

安裝

Agent 類型

Claude Code

安裝指令 (macOS)
curl -fsSL "https://mentalok.io/api/v1/skills/evaluation/install?os=mac&agent=claude" | bash
安裝指令 (Windows)
curl -L "https://mentalok.io/api/v1/skills/evaluation/install?os=windows&agent=claude" -o install-evaluation.bat && install-evaluation.bat

下載技能專案

/agent-skill/evaluation