工程開發
evaluating-code-models avatar

evaluating-code-models

使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。

安裝

Agent 類型

Claude Code

安裝指令 (macOS)
curl -fsSL "https://mentalok.io/api/v1/skills/evaluating-code-models/install?os=mac&agent=claude" | bash
安裝指令 (Windows)
curl -L "https://mentalok.io/api/v1/skills/evaluating-code-models/install?os=windows&agent=claude" -o install-evaluating-code-models.bat && install-evaluating-code-models.bat

下載技能專案

/agent-skill/evaluating-code-models