evaluation
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 350 個技能
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
根據架構標準驗證 Claude Code 插件,檢查清單檔案、前置內容與工具調用模式,確保開發出高品質且符合規範的插件。
使用 LangChain 1.x 與 LangGraph 架構生產級 LLM 應用程式。實現狀態化 AI 代理、多步驟工作流程,並為複雜的對話與自動化任務建構自訂記憶系統。
Spring Boot 應用程式的測試驅動開發 (TDD) 工作流程,支援 JUnit 5、Mockito、MockMvc 與 Testcontainers。
優化 Apache Spark 作業,包含分區策略、記憶體管理、Shuffle 調整與數據傾斜處理,提升數據處理效能。
為 Claude Code 提供的全方位 Next.js 15 開發與專案管理技能,包含 Supabase 整合、RBAC 權限管理及自動化品質驗證。
MassGen 發布文件的標準化工作流程與檢查清單助理,涵蓋變更日誌、Sphinx 文件、案例研究及路線圖同步。
kagent 專家指南:用於構建、部署和管理 AI Agent、MCP 工具及 A2A 協議的 Kubernetes 原生框架。
為軟體開發任務創建詳細的、基於 TDD 的逐步實作計畫。
C 程式語言專家,專注於記憶體管理、系統程式設計、底層優化與除錯最佳實踐。
代理人指派矩陣、阻礙升級與 TDM 協調模式,用於多代理人軟體開發工作流程。
根據結構化規範架構企業 AI 代理,生成生產就緒程式碼、資料流圖以及適用於 ServiceNow、Salesforce 和 Snowflake 的平台特定邏輯。