工程开发
evaluating-code-models avatar

evaluating-code-models

使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。

每日活动

最近 30 天的浏览与下载趋势。

日期浏览下载
4月30日00
4月29日00
4月28日00
4月27日00
4月26日00
4月25日00
4月24日00
4月23日00
4月22日00
4月21日00
4月20日00
4月19日00
4月18日00
4月17日00
4月16日00
4月15日00
4月14日00
4月13日00
4月12日00
4月11日00
4月10日00
4月9日00
4月8日00
4月7日00
4月6日00
4月5日00
4月4日00
4月3日00
4月2日00
4月1日00