工程开发
evaluation avatar

evaluation

为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。

每日活动

最近 30 天的浏览与下载趋势。

日期浏览下载
6月17日20
6月16日30
6月15日00
6月14日20
6月13日00
6月12日02
6月11日10
6月10日00
6月9日00
6月8日00
6月7日02
6月6日00
6月5日00
6月4日10
6月3日40
6月2日01
6月1日01
5月31日10
5月30日00
5月29日00
5月28日00
5月27日00
5月26日00
5月25日00
5月24日00
5月23日00
5月22日00
5月21日00
5月20日00
5月19日00