eval

簡介

Eval 技能提供了一個完整的測試框架，確保 Deca AI 代理嚴格遵守其基礎系統提示詞，特別是 IDENTITY.md 與 SOUL.md。此技能專為需要透過可重複的行為評估週期來驗證代理人格、安全協議與操作約束的開發人員與系統維護者所設計。透過將自動化測試執行與人工審核判斷分離，它確保了代理的定性表現能對照客觀標準進行衡量。

使用專用執行器對運行中的 Deca Gateway（埠號 7014）執行測試套件。
支援模組化測試類別，包含身份驗證 (Identity)、核心原則 (Soul) 與代理特定行為規則。
協助進行代理輸出的人工 LLM 判斷，並提供詳細的評分指南與客觀評估標準。
產生標準化 Markdown 報告，總結效能指標、通過/失敗狀態與定性推理。
提供強大的框架，無需修改核心代理邏輯即可在 eval/cases/ 目錄中加入新的測試案例。
專為行為驗證設計，確保代理嚴格遵守人格特質、安全警告與任務執行規則。
在執行評估前務必啟動新的 Gateway 工作階段，以防止先前互動產生的上下文污染。
使用提供的評分指南 (0-100) 以維持不同模型版本間的一致性評估標準。
在人工判斷階段，務必保留 gitCommit 與 timestamp 等所有元數據欄位。
利用 quickCheck 機制，對代理回應中的字串匹配與關鍵字觸發進行客觀驗證。
需要安裝 Bun 的本地開發環境，因為評估工作流程依賴於 eval/ 目錄中的特定執行腳本。

創業課程

網上課程

實體課程

簡介

倉庫統計