evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 350 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
根据架构标准验证 Claude Code 插件,检查清单文件、前置内容与工具调用模式,确保开发出高质量且符合规范的插件。
使用 LangChain 1.x 与 LangGraph 构建生产级 LLM 应用程序。实现状态化 AI 代理、多步骤工作流程,并为复杂的对话与自动化任务构建自定义记忆系统。
Spring Boot 应用程序的测试驱动开发 (TDD) 工作流程,支持 JUnit 5、Mockito、MockMvc 与 Testcontainers。
优化 Apache Spark 作业,包含分区策略、内存管理、Shuffle 调整与数据倾斜处理,提升数据处理效能。
为 Claude Code 提供的全方位 Next.js 15 开发与项目管理技能,包含 Supabase 集成、RBAC 权限管理及自动化质量验证。
MassGen 发布文档的标准化工作流程与清单助手,涵盖更新日志、Sphinx 文档、案例研究及路线图同步。
kagent 专家指南:用于构建、部署和管理 AI Agent、MCP 工具及 A2A 协议的 Kubernetes 原生框架。
为软件开发任务创建详细的、基于 TDD 的逐步实现计划。
C 编程语言专家,专注于内存管理、系统程序设计、底层优化与调试最佳实践。
代理人指派矩阵、阻碍升级与 TDM 协调模式,用于多代理人软件开发工作流程。
根据结构化规范架构企业 AI 代理,生成生产就绪代码、数据流图以及适用于 ServiceNow、Salesforce 和 Snowflake 的平台特定逻辑。