evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 343 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
维护一个包含 Mermaid 图表的集中式架构总览,记录系统边界、模块依赖与接口契约,以利于项目导航与重构。
创意研究头脑风暴伙伴,用于探索跨领域连接、挑战现有假设,并协助产生可验证的科学假设。
使用 agents:// URI 统一管理多种 AI 代理的对话,支持查询、读取、分析及撰写指令,适用于各类 AI 编码代理。
自动化 LinkedIn 潜在客户开发工具,专为科技服务设计。识别非技术背景创始人,执行网站差距分析,并自动生成专业 PDF 审核报告,助您精准获客。
Lovable 风格 AI 开发工作流程控制器。通过调度专门的子代理,即时生成优质、多页面且具备动画效果的应用程序。无需冗长提示,直接启动开发。
协助您设定、规划与构建 gitagent 项目的工具,包含 agent.yaml、SOUL.md、RULES.md 配置与目录架构管理。
智能 Apple Mail 收件箱扫描工具,可自动分析并分类未读、待办与优先级邮件。
专为 bkend.ai BaaS 设计的全栈开发代理。自动化项目初始化、身份验证、数据库配置及 Next.js 应用程序 API 集成。
通过管理插件来自我修改 Milady 代理。编辑代码、重建并重新启动运行环境,以开发新功能或本地优化代理工作流程。
通过 OpenAI Codex 和 Google Gemini 获取架构、代码审查与调试的专家观点,并透明化展示所有 AI 推论与建议。
分析 Claude Code 会话历史,以识别效率低下的模式、优化 Token 使用量并建议工作流程改进。