工程開發
advanced-evaluation
實作生產級別的 LLM-as-a-judge 模型評估管線,包含配對比較、直接評分、偏差緩解與評分標準生成。
安裝
Agent 類型
Claude Code
安裝指令 (macOS)
curl -fsSL "https://mentalok.io/api/v1/skills/advanced-evaluation/install?os=mac&agent=claude" | bash
安裝指令 (Windows)
curl -L "https://mentalok.io/api/v1/skills/advanced-evaluation/install?os=windows&agent=claude" -o install-advanced-evaluation.bat && install-advanced-evaluation.bat
下載安裝腳本