evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 452 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
使用 Wayfinder 库管理 Inertia.js React 前端组件中类型安全的 Laravel 后端路由。
专门用于创建、编辑和维护 .drawio 流程图的技能。支持 XML 操作、排版优化、AWS 图标集成,以及文档自动化 PNG 转换。
AI 辅助代码代理版本控制。通过 MemoV 自动追踪提示词、上下文与差异,确保完整可追溯性,且不污染 Git 历史记录。
分析 C++ 代码中的实时安全性违规,包括音频线程中的堆内存分配、锁、阻塞调用及非确定性操作。
使用 Google Gemini API 进行深度视频分析:包含视频摘要、音频转录、时间戳提取、视频片段剪辑,并支持 YouTube 链接或本地文件,适用于多种模型与长文本上下文。
一套系统化的代码审计框架,用于识别软件项目中的技术债、安全漏洞、无效代码及代码质量问题。
应用务实编码标准:包含明确命名、单一职责函数、防御性编程,以及确定性副作用,拒绝过度设计与臆测性功能。
将内容属性与 GA4 和 GSC 指标进行关联分析,以识别绩效驱动因素并挖掘优化机会。
开发与维护 PWAFire 工具库:编写 PWA API 模块、处理功能检测、管理测试,并遵循严格的同步/异步模式与错误处理规范贡献代码。
分析 Claude Code 会话历史,以识别效率低下的模式、优化 Token 使用量并建议工作流程改进。
一个基于 Quartz v4 高度定制化的数字花园,支持增强型 Markdown 解析、缩放文本、TikZ 与伪代码渲染,并整合了 Obsidian 插件生态。