工程开发
eval avatar

eval

通过自动化测试执行器、人工 LLM 判断与结构化报告,评估 Deca 代理提示词与行为一致性。

简介

Eval 技能提供了一个完整的测试框架,确保 Deca AI 代理严格遵守其基础系统提示词,特别是 IDENTITY.md 与 SOUL.md。此技能专为需要通过可重复的行为评估周期来验证代理人格、安全协议与操作约束的开发人员与系统维护者所设计。通过将自动化测试执行与人工审核判断分离,它确保了代理的定性表现能对照客观标准进行衡量。

  • 使用专用执行器对运行中的 Deca Gateway(端口 7014)执行测试套件。

  • 支持模块化测试类别,包含身份验证 (Identity)、核心原则 (Soul) 与代理特定行为规则。

  • 协助进行代理输出的人工 LLM 判断,并提供详细的评分指南与客观评估标准。

  • 生成标准化 Markdown 报告,总结性能指标、通过/失败状态与定性推理。

  • 提供强大的框架,无需修改核心代理逻辑即可在 eval/cases/ 目录中加入新的测试案例。

  • 专为行为验证设计,确保代理严格遵守人格特质、安全警告与任务执行规则。

  • 在执行评估前务必启动新的 Gateway 工作阶段,以防止先前交互产生的上下文污染。

  • 使用提供的评分指南 (0-100) 以维持不同模型版本间的一致性评估标准。

  • 在人工判断阶段,务必保留 gitCommit 与 timestamp 等所有元数据字段。

  • 利用 quickCheck 机制,对代理响应中的字符串匹配与关键字触发进行客观验证。

  • 需要安装 Bun 的本地开发环境,因为评估工作流程依赖于 eval/ 目录中的特定执行脚本。

仓库统计

Star 数
1
Fork 数
0
Open Issue 数
0
主要语言
TypeScript
默认分支
main
同步状态
空闲
最近同步时间
2026年5月3日 23:02
在 GitHub 查看