工程开发数据分析研究
evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
浏览: 23★ 15,339
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 157 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
用于在 Claude Code 和 Gemini CLI 扩展之间转换及同步 AI 代理技能的通用 CLI 工具。
根据产品代码手册将测试工程师的缺陷描述标准化,修正错别字、缩写错误与歧义,并执行站点验证。
为提示词中的 JSON 数据提供认知安全分析,防止大型语言模型在处理不完整或大规模数据集时产生幻觉与推理错误。
提取并记录真实的写作语气。为 AI 训练、代笔写作及品牌一致性建立详尽的语气指南。
建立基于假设的初版人物誌 (Proto-persona),整合市场信号与团队知识,在进行深入验证前协助产品团队达成共识。
通过 S.E.E.D. 利基检查、STREAM 6 层分析与恶魔律师反向思维,进行端到端的创业构想验证并生成产品需求文档 (PRD)。
一套设计系统与反模式指南,让 AI 生成的界面更具人工质感。通过管理色彩、排版、间距与动画,为 Toh Framework 提供专业的视觉品质。
为 OpenClaw 技能开发提供多代理迭代优化与品质把关,通过标准化测试与生命周期管理提升技能效能。
智能合同审查工具,用于识别风险、提取关键条款并标记异常条款,支持明智的决策过程。
对知识库文档进行深度结构分析、关键信息提取及质量评估的智能助手。
分析 Claude Code 会话历史,以识别效率低下的模式、优化 Token 使用量并建议工作流程改进。