工程開發
evaluation avatar

evaluation

為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。

每日活動

最近 30 天的瀏覽與下載趨勢。

日期瀏覽下載
6月12日00
6月11日10
6月10日00
6月9日00
6月8日00
6月7日02
6月6日00
6月5日00
6月4日10
6月3日40
6月2日01
6月1日01
5月31日10
5月30日00
5月29日00
5月28日00
5月27日00
5月26日00
5月25日00
5月24日00
5月23日00
5月22日00
5月21日00
5月20日00
5月19日00
5月18日01
5月17日00
5月16日00
5月15日00
5月14日00