工程开发
evaluation avatar

evaluation

为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。

安装

Agent 类型

Claude Code

安装命令 (macOS)
curl -fsSL "https://mentalok.io/api/v1/skills/evaluation/install?os=mac&agent=claude" | bash
安装命令 (Windows)
curl -L "https://mentalok.io/api/v1/skills/evaluation/install?os=windows&agent=claude" -o install-evaluation.bat && install-evaluation.bat

下载技能项目

/agent-skill/evaluation