eval

简介

Eval 技能提供了一个完整的测试框架，确保 Deca AI 代理严格遵守其基础系统提示词，特别是 IDENTITY.md 与 SOUL.md。此技能专为需要通过可重复的行为评估周期来验证代理人格、安全协议与操作约束的开发人员与系统维护者所设计。通过将自动化测试执行与人工审核判断分离，它确保了代理的定性表现能对照客观标准进行衡量。

使用专用执行器对运行中的 Deca Gateway（端口 7014）执行测试套件。
支持模块化测试类别，包含身份验证 (Identity)、核心原则 (Soul) 与代理特定行为规则。
协助进行代理输出的人工 LLM 判断，并提供详细的评分指南与客观评估标准。
生成标准化 Markdown 报告，总结性能指标、通过/失败状态与定性推理。
提供强大的框架，无需修改核心代理逻辑即可在 eval/cases/ 目录中加入新的测试案例。
专为行为验证设计，确保代理严格遵守人格特质、安全警告与任务执行规则。
在执行评估前务必启动新的 Gateway 工作阶段，以防止先前交互产生的上下文污染。
使用提供的评分指南 (0-100) 以维持不同模型版本间的一致性评估标准。
在人工判断阶段，务必保留 gitCommit 与 timestamp 等所有元数据字段。
利用 quickCheck 机制，对代理响应中的字符串匹配与关键字触发进行客观验证。
需要安装 Bun 的本地开发环境，因为评估工作流程依赖于 eval/ 目录中的特定执行脚本。

创业课程

在线课程

实体课程

简介

仓库统计