evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 163 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
诊断、隔离并缓解 LLM 上下文故障(如中间丢失、中毒、干扰及冲突),提升 AI 代理的执行可靠性。
专注于 Trigger.dev 背景任务与 AI 工作流的专家助手,协助开发、设计与优化高可靠性的异步 TypeScript 任务架构。
Refly 生态系统基础技能。用于创建、探索及执行特定领域技能,通过符号链接路由用户意图至工作流程,并利用 Refly CLI 自动化执行多步骤任务。
为 AI 代理实现自动化的关键自我验证层,在完成任务前确保代码质量、安全性和需求一致性。
一套管理 LLM 项目生命周期的框架,涵盖评估任务模型契合度、架构设计、结构化输出解析及代理辅助开发流程。
一套设计系统与反模式指南,让 AI 生成的界面更具人工质感。通过管理色彩、排版、间距与动画,为 Toh Framework 提供专业的视觉品质。
多模型代码审查工作流,通过共识机制进行代码质量与安全分析。
使用 AI 模型(如 FLUX 和 Gemini)生成或编辑图像。适用于照片、插图、概念艺术和视觉素材,不包含技术图表或原理图。
为 LLM 设置的程序开发行为准则,旨在减少错误、落实最佳实践,并通过强调简洁性、精确修改与目标导向验证来提升代码质量。
通过管理 conductor/ 目录中的项目环境工件(产品、技术栈、工作流程、跟踪)来标准化开发环境。支持项目脚手架创建、工件同步以及针对全新与既有项目的 AI 对齐。
一位睿智的专家代理指挥家。通过召唤、协调并创建专门的 AI 专家来协助您达成目标。具备智识谦逊、多代理人辩论以及自我学习模式捕获功能。