工程開發資料分析研究
evaluation
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
瀏覽: 24★ 15,339
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 450 個技能
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
用於將任務分發給專業背景代理的智能編排系統,具備基於性能的路由與執行追蹤功能。
使用 React、Next.js 與 shadcn/ui 等現代設計系統,建構專業、易於使用且具響應式的介面。專注於開發者工具、聊天介面及即時串流組件。
專業程式碼審查代理,針對 git 變更進行系統性審計,檢測 SOLID 原則違規、安全性漏洞、效能回歸及架構異味。
為 Claude Code 和 Codex 設計的憲法驅動規格優先開發工作流,透過結構化代理循環自動化功能規劃、實作與品質保證。
一套將實驗性機器學習原型轉換為穩健、可發佈的 Python 套件之框架,採用 src 配置、混合架構與嚴謹的設定管理。
撰寫結構良好的使用者故事和需求文件,遵循 INVEST 準則。
用於審核和驗證 Claude Code 配置(技能、鉤子、指令)的結構完整性、命名規範及最佳實踐的專家工具。
為 AI 代理設計的結構化任務規劃框架,將複雜功能、重構與錯誤修復分解為可操作、可驗證的步驟。
使用架構優先設計、TDD、豐富領域模型與 Swift 6.2 模式實作功能的指南,確保領域、基礎設施與應用層之間的清晰隔離。
執行實作規劃工作流程,產生技術設計產出物,並為 Spec Kit 專案建構研究任務。
代碼搜索工具選擇器。自動在語義搜索 (claudemem) 與本地工具 (Grep/Glob) 之間切換,優化搜索效率、Token 使用與準確性。