工程開發
eval avatar

eval

透過自動化測試執行器、人工 LLM 判斷與結構化報告,評估 Deca 代理提示詞與行為一致性。

簡介

Eval 技能提供了一個完整的測試框架,確保 Deca AI 代理嚴格遵守其基礎系統提示詞,特別是 IDENTITY.md 與 SOUL.md。此技能專為需要透過可重複的行為評估週期來驗證代理人格、安全協議與操作約束的開發人員與系統維護者所設計。透過將自動化測試執行與人工審核判斷分離,它確保了代理的定性表現能對照客觀標準進行衡量。

  • 使用專用執行器對運行中的 Deca Gateway(埠號 7014)執行測試套件。

  • 支援模組化測試類別,包含身份驗證 (Identity)、核心原則 (Soul) 與代理特定行為規則。

  • 協助進行代理輸出的人工 LLM 判斷,並提供詳細的評分指南與客觀評估標準。

  • 產生標準化 Markdown 報告,總結效能指標、通過/失敗狀態與定性推理。

  • 提供強大的框架,無需修改核心代理邏輯即可在 eval/cases/ 目錄中加入新的測試案例。

  • 專為行為驗證設計,確保代理嚴格遵守人格特質、安全警告與任務執行規則。

  • 在執行評估前務必啟動新的 Gateway 工作階段,以防止先前互動產生的上下文污染。

  • 使用提供的評分指南 (0-100) 以維持不同模型版本間的一致性評估標準。

  • 在人工判斷階段,務必保留 gitCommit 與 timestamp 等所有元數據欄位。

  • 利用 quickCheck 機制,對代理回應中的字串匹配與關鍵字觸發進行客觀驗證。

  • 需要安裝 Bun 的本地開發環境,因為評估工作流程依賴於 eval/ 目錄中的特定執行腳本。

倉庫統計

Star 數
1
Fork 數
0
Open Issue 數
0
主要語言
TypeScript
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月3日 下午11:02
在 GitHub 查看