工程开发
advanced-evaluation avatar

advanced-evaluation

实现生产级别的 LLM-as-a-judge 模型评估流水线,包含配对比较、直接评分、偏差缓解与评分标准生成。

安装

Agent 类型

Claude Code

安装命令 (macOS)
curl -fsSL "https://mentalok.io/api/v1/skills/advanced-evaluation/install?os=mac&agent=claude" | bash
安装命令 (Windows)
curl -L "https://mentalok.io/api/v1/skills/advanced-evaluation/install?os=windows&agent=claude" -o install-advanced-evaluation.bat && install-advanced-evaluation.bat

下载技能项目

/agent-skill/advanced-evaluation