evaluation
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 640 个技能
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
通用 SSH 远程服务器管理工具。直接在 Claude 会话中执行指令、管理 Docker 容器、查看日志并进行服务器维护。
SolidStart 服务器运行时专业指南,涵盖请求事件、中间件、服务器函数与 API 架构设计。
使用 Kokoro TTS 进行本地文字转语音。在终端中生成音频、朗读文本并处理多语言语音合成。
利用费曼技巧、苏格拉底教学法与认知负载理论等大师级教学策略,将复杂概念转化为清晰易懂的解释。
使用屏幕阅读器(如 VoiceOver、NVDA 和 JAWS)测试 Web 应用程序。验证无障碍兼容性、调试辅助技术问题,并确保符合屏幕阅读器的支持标准。
使用 Playwright 测试本地 Web 应用程序的工具组,支持服务器生命周期管理、自动化 DOM 检测与浏览器自动化工作流程。
Svelte 5 测试专家,运用 vitest-browser-svelte 与 Playwright。提供单元测试、SSR 与 E2E 测试模式,并附带供 AI 助手使用的 CLI 工具以检索测试示例。
通过本地 SQLite 管理个人财务,支持支出分类、预算设置,以及定期账单与年度费用的自动提醒功能。
在浏览器中使用 Jupyter Notebook 交互式测试 Adobe EDS 区块。支持 ES6 导入、覆盖层预览、响应式设备测试及零依赖执行环境。
管理多链加密钱包系统的 CI/CD 工作流程、Docker 容器化与基础设施配置。
执行 RDF4J 中可重复的 Maven 测试,提供模块化工作流程、自动环境刷新与实用的错误报告。