evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 458 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
维护一个包含 Mermaid 图表的集中式架构总览,记录系统边界、模块依赖与接口契约,以利于项目导航与重构。
从 DeepEar Lite 平台获取即时金融信号、传导链推理及市场信心指标,协助 AI 代理进行深度市场分析。
客户问题与调查研究工具,提供多来源信息整合、事件追踪、账户历史记录查询,并包含来源标注与信赖度评分。
自动化 LaTeX 编译、错误诊断与 PDF 验证流程,专为学术论文投稿设计。
OpenCode AI 专家指南:涵盖 TUI 指令、CLI 操作、AGENTS.md 配置、自定义代理工作流程与项目设置。
为初创公司打造的 AI 原生产品管理工具。具备自动化竞品研究、基于 WINNING 模型的缺口分析、PRD 文档生成,并集成 GitHub Issues 进行信号驱动的优先级规划。
自动化临床报告生成,包括符合 CARE 指南的病例报告、诊断总结、临床试验文件 (CSR/SAE) 及病人笔记,并确保法规合规性。
分析代码库以生成层次分明的文档、入职指南和架构映射,帮助团队高效理解并记录项目。
从 Terraform (.tf) 文件自动生成云架构图。解析 HCL 代码、映射资源依赖关系,并通过 Eraser 将基础设施可视化。
结构化推理工具,用于复杂问题分解、分步分析、一致性验证以及带有置信度评分的证据合成。
为代码库生成层级化的 AI 优化文档结构 (AGENTS.md, agent.d),帮助 AI 编码助手与开发者更高效地访问项目上下文、设置与导航。