工程开发
evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
安装
Agent 类型
Claude Code
安装命令 (macOS)
curl -fsSL "https://mentalok.io/api/v1/skills/evaluating-code-models/install?os=mac&agent=claude" | bash
安装命令 (Windows)
curl -L "https://mentalok.io/api/v1/skills/evaluating-code-models/install?os=windows&agent=claude" -o install-evaluating-code-models.bat && install-evaluating-code-models.bat
下载安装脚本