evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 496 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
面向 AI 代理的参数化 CAD 工具。通过 MCP 工具以程式化方式建立 3D 模型与机械零件,支持布尔运算、阵列与多格式导出 (STL, GLB, STEP)。
通过 MCP 将您的 AI 代理连接至 Hugging Face Hub。搜索模型、数据集与论文,管理存储库,执行云端计算任务,并将 Gradio Spaces 作为 AI 工具调用使用。
自动化 GitHub Issue 分析、分类与解决方案规划工具,完全整合规格驱动开发 (SDD) 工作流程。
发现并安装代理技能以扩展 DeerFlow 功能。使用此技能搜索适用于编码、测试、部署等任务的工具、工作流程或专业知识。
根据关键词、主题或情境生成高质量的日语谐音梗(dajare)。内置押韵分析与情境幽默生成功能。
分析与调试 fast-agent 会话记录、工具执行日志与对话时序,以解决性能瓶颈、工具循环以及非预期的会话终止问题。
通过管理 conductor/ 目录中的项目环境工件(产品、技术栈、工作流程、跟踪)来标准化开发环境。支持项目脚手架创建、工件同步以及针对全新与既有项目的 AI 对齐。
维护并更新 MassGen 模型注册表,包含后端能力、模型元数据、定价结构以及新旧 AI 模型的上下文窗口配置。
搜索并参考 Chromium 文档,包含设计文档、API 和开发指南。适用于定位、浏览或学习 Chromium 代码库中的架构、GPU、网络、安全和测试概念。
针对 Go CLI 应用程序的专家级自动化代码审查,涵盖 Cobra/urfave 模式、安全性、性能、Go 惯用语法及完善的错误处理。
通过引入代码变异并测量杀灭率,验证测试套件的有效性并找出薄弱断言。对于证明测试能真正捕捉错误,而非仅仅满足覆盖率指标至关重要。