工程开发数据分析研究
evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
浏览: 24★ 15,339
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 459 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
为 AI 开发代理设计的严谨代码审查接收机制,强调技术验证与实际检查,避免盲目同意。
审核 Packmind 文档,将 MDX 文件与代码库交叉比对,以检测无效链接、过时的 CLI 参考及文件缺漏。
一套系统化的代码审计框架,用于识别软件项目中的技术债、安全漏洞、无效代码及代码质量问题。
Sindri 声明式 YAML 扩展开发指南,涵盖项目初始化、认证、生命周期钩子及 MCP 集成等功能开发说明。
从沙盒环境远程控制无头浏览器,进行自动化网页浏览、数据抓取、表单交互及测试工作。
搜索并参考 Chromium 文档,包含设计文档、API 和开发指南。适用于定位、浏览或学习 Chromium 代码库中的架构、GPU、网络、安全和测试概念。
诊断 GitHub Actions CI 失败,自动获取日志、总结错误并规划修复方案。
一套标准化工作流程,用于将原始 PM 笔记、工作坊内容或初稿转化为经过验证且符合仓库规范的 AI 技能。
一套将实验性机器学习原型转换为稳健、可发布 Python 软件包的框架,采用 src 布局、混合架构与严谨的配置管理。
为复杂软件项目建立强健、可扩展且易于维护的技术实施计划。
为模式开发提供的标准化 Git 工作流程,包含变基策略、拉取请求建立以及上游同步,用于协作社区存储库管理。