工程开发数据分析研究
evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
浏览: 23★ 15,339
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 354 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
通过 KV 缓存、观测遮罩、基于摘要的压缩与内容分割技术,优化代理程序的上下文窗口,以降低成本并减少延迟。
通过递归分块、子查询与聚合结果处理超过 1,000 万 token 的大型文件和代码库,突破 LLM 上下文窗口限制。
NetBox REST 与 GraphQL API 集成最佳实践。针对 NetBox 自动化需求,优化性能、验证机制与架构设计模式。
专业级 CTF 解题代理,自动执行针对网页、二进制、密码学、逆向工程与取证挑战的侦察、漏洞分析及漏洞利用程序开发。
在 OpenClaw 中使用 OpenAI Whisper API 将音频文件直接转换为文字。
操作 Railway 基础设施:管理项目、服务、数据库、对象存储、部署、环境、变量、日志及性能指标。
通过 AnkiConnect REST API 高效管理您的 Anki 闪卡。通过 AI 代理直接创建、更新、搜索与整理牌组、笔记与卡片。
Python 编程助手,提供最佳实践、PEP 8 代码规范检查、使用 pytest 的自动化测试以及基于 uv 的依赖管理。
Claude Code 开发会话的自动化运行时可观测变更日志,追踪文件变更、测试结果与 Git 提交。
构建具备工具调用与多步推理能力的 AI 代理。生成、管理并编排适用于 Claude Code、Cursor、Cline 等 AI 助手的自定义技能文件,实现开发流程标准化。
适用于 OpenClaw 的终端 Spotify 播放与搜索控制器。