reflect-appworld-failure
分析 AppWorld 任务失败原因,提取具体的 API 模式并生成带有实现代码示例的可执行剧本要点。
简介
reflect-appworld-failure 技能是专为在 AppWorld 环境中运行的自主代理所设计的 ACE (代理内容工程) 框架中的关键组件。其主要目的是将执行失败转化为持久、可重用的知识,以防止重复性错误。当代理在与 Spotify、Venmo、Gmail 或日历等应用程序交互时遇到异常、逾时或逻辑错误时,此技能充当反射桥梁,将错误日志转换为结构化、可操作的情报。它识别根本原因(范围从不正确的 API 命名约定和缺失的身份验证步骤,到不正确的数据结构导航),并将解决方案正规化为标准化的 JSON 架构。这确保了代理的剧本能够动态演进,从而提高后续任务的成功率。
-
针对 API 滥用、逻辑错误和身份验证逾时等常见失败进行根本原因识别。
-
自动提取设计模式,例如强制性的 API 顺序(例如搜索前需先登录)和正确的方法命名约定。
-
生成高质量、可操作的要点,其中包含展示正确 API 交互模式的具体代码片段。
-
与更广泛的 ACE 内容管理系统整合,以进行基于 TF-IDF 的检索和冲突检测。
-
丰富的元数据输出,包括证据追踪 (任务 ID)、信心评分和分类标记,以便进行高效索引。
-
此技能需要结构化的输入格式,包括任务说明、使用的应用程序、错误消息和失败的代码片段。
-
输出需严格验证以符合 JSON 架构,确保与生成器和策展人工作流的兼容性。
-
专为致力于 AppWorld 任务自动化的开发人员和自动化代理而设计,要求始终使用 apis.supervisor.complete_task() 来标记完成。
-
用户应专注于识别可推广的模式,而非特定于任务的怪癖,以最大化生成要点在不同场景下的效用。
-
使用生成的信心等级(高、中、低)来决定要点是应自动应用还是由人工审查。
-
有效弥合原始执行错误日志与代理系统长期内容演进之间的差距。
仓库统计
- Star 数
- 27
- Fork 数
- 3
- Open Issue 数
- 2
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月3日 17:29