工程开发
evaluating-code-models avatar

evaluating-code-models

使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。

每日活动

最近 30 天的浏览与下载趋势。

日期浏览下载
6月14日01
6月13日00
6月12日00
6月11日00
6月10日00
6月9日10
6月8日00
6月7日00
6月6日00
6月5日00
6月4日00
6月3日00
6月2日00
6月1日00
5月31日00
5月30日20
5月29日00
5月28日00
5月27日10
5月26日00
5月25日00
5月24日00
5月23日00
5月22日40
5月21日00
5月20日00
5月19日00
5月18日01
5月17日10
5月16日00