工程开发数据分析研究
evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
浏览: 24★ 15,339
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 450 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
用于将任务分发给专业后台代理的智能编排系统,具备基于性能的路由与执行追踪功能。
使用 React、Next.js 和 shadcn/ui 等现代设计系统,构建专业、易用且具响应式的界面。专注于开发者工具、聊天界面及实时流式组件。
专业代码审查代理,针对 git 变更进行系统性审计,检测 SOLID 原则违规、安全性漏洞、性能回归及架构异味。
为 Claude Code 和 Codex 设计的宪法驱动规格优先开发工作流,通过结构化代理循环自动化功能规划、实现与质量保证。
一套将实验性机器学习原型转换为稳健、可发布 Python 软件包的框架,采用 src 布局、混合架构与严谨的配置管理。
编写结构良好的用户故事和需求文档,遵循 INVEST 准则。
用于审核和验证 Claude Code 配置(技能、钩子、指令)的结构完整性、命名规范及最佳实践的专家工具。
为 AI 代理设计的结构化任务规划框架,将复杂功能、重构与错误修复分解为可操作、可验证的步骤。
使用架构优先设计、TDD、丰富领域模型与 Swift 6.2 模式实现功能的指南,确保领域、基础设施与应用层之间的清晰隔离。
执行实现规划工作流程,生成技术设计产出物,并为 Spec Kit 项目构建研究任务。
代码搜索工具选择器。自动在语义搜索 (claudemem) 与本地工具 (Grep/Glob) 之间切换,优化搜索效率、Token 使用与准确性。