evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 393 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
将软件开发想法捕捉并形式化为 Hashbrown 存储库中的结构化设计文档,包含研究资料与概念草图。
生成符合 Cloudscape Design System 的 React + TypeScript UI 代码,包含辅助功能、响应式布局及完善的状态处理。
将 Markdown 格式的产品需求文档 (PRD) 转换为 Ralph 自主 AI 代理系统所需的 prd.json 结构,以实现可重复且具备上下文意识的软件开发。
使用 Cloudflare Workers AI flux-1-schnell 模型生成图像。直接在您的工作流程中启用文字生成图片功能。
管理长时间运行的 PapersFlow DeepScan 研究流程,提供异步监控、实时进度追踪与自动化报告生成功能。
一个用于 Claude Code 技能的智能生成器,可自动化创建结构化提示词、YAML 元数据以及支持性文件架构。
通过 gh CLI 与 GitHub 互动,以管理议题、合并请求、工作流程运行,并执行高级 API 查询。
以英国皇家海军中队为隐喻的软件开发多代理协调系统,具备任务规划、并行任务协调与严谨的审计日志功能。
通过先进的上下文压缩、结构化摘要与任务导向的状态管理,为长期运行的 AI 代理会话优化性能并降低 Token 使用量。
根据最新文献验证研究想法的新颖性。适用于用户询问“查新”、“有没有人做过”或需要确认方法原创性时。
构建无代码 MCP 服务器,通过 YAML 以有向图形式编排工具,实现数据转换、条件路由与自动化工作流。