工程开发
eval-harness avatar

eval-harness

克劳德代码会话的正式评估框架,实施评估驱动开发(EDD)原则,用于保障 AI 代理的可靠性。

安装

Agent 类型

Claude Code

安装命令 (macOS)
curl -fsSL "https://mentalok.io/api/v1/skills/eval-harness/install?os=mac&agent=claude" | bash
安装命令 (Windows)
curl -L "https://mentalok.io/api/v1/skills/eval-harness/install?os=windows&agent=claude" -o install-eval-harness.bat && install-eval-harness.bat

下载技能项目

/agent-skill/eval-harness