工程开发
eval
通过自动化测试执行器、人工 LLM 判断与结构化报告,评估 Deca 代理提示词与行为一致性。
简介
Eval 技能提供了一个完整的测试框架,确保 Deca AI 代理严格遵守其基础系统提示词,特别是 IDENTITY.md 与 SOUL.md。此技能专为需要通过可重复的行为评估周期来验证代理人格、安全协议与操作约束的开发人员与系统维护者所设计。通过将自动化测试执行与人工审核判断分离,它确保了代理的定性表现能对照客观标准进行衡量。
-
使用专用执行器对运行中的 Deca Gateway(端口 7014)执行测试套件。
-
支持模块化测试类别,包含身份验证 (Identity)、核心原则 (Soul) 与代理特定行为规则。
-
协助进行代理输出的人工 LLM 判断,并提供详细的评分指南与客观评估标准。
-
生成标准化 Markdown 报告,总结性能指标、通过/失败状态与定性推理。
-
提供强大的框架,无需修改核心代理逻辑即可在 eval/cases/ 目录中加入新的测试案例。
-
专为行为验证设计,确保代理严格遵守人格特质、安全警告与任务执行规则。
-
在执行评估前务必启动新的 Gateway 工作阶段,以防止先前交互产生的上下文污染。
-
使用提供的评分指南 (0-100) 以维持不同模型版本间的一致性评估标准。
-
在人工判断阶段,务必保留 gitCommit 与 timestamp 等所有元数据字段。
-
利用 quickCheck 机制,对代理响应中的字符串匹配与关键字触发进行客观验证。
-
需要安装 Bun 的本地开发环境,因为评估工作流程依赖于 eval/ 目录中的特定执行脚本。
仓库统计
- Star 数
- 1
- Fork 数
- 0
- Open Issue 数
- 0
- 主要语言
- TypeScript
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月3日 23:02