evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 94 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
使用 AI AutoGLM Phone Agent 自动化 Android 设备操作。通过自然语言指令控制手机界面,适用于 APP 自动化测试、数据采集与 UI 互动,支持点击、滑动、输入与截屏。
标准化 Markdown 内容,包含主动语态、精确的标题层级以及符合 WCAG AA 无障碍标准,适用于文档、网站及仓库文件。
专业级 CTF 解题代理,自动执行针对网页、二进制、密码学、逆向工程与取证挑战的侦察、漏洞分析及漏洞利用程序开发。
获取并解析飞书云文档为 Markdown,支持媒体内容处理与知识库链接解析。
通过 WaveSpeed AI 使用 Google Nano Banana 2 模型进行图像生成与编辑。支持文生图、自然语言修图、多图合成、4K 分辨率及多种比例。
macOS 视觉自动化工具,提供精确窗口截图、录影、UI 标注、Excalidraw 线框图生成及自动化视觉回归测试。
使用 Chrome 无头模式自动为 MicroSim 可视化生成高质量截图。适用于文档制作、社交媒体预览及质量评估。
对落地页进行结构化的 8 要素转化率优化 (CRO) 审计,识别转化阻碍并提供增长建议。
Civitai 综合审核工具组,提供用户管理、违规计点系统、图片审核、内容监管及 CSAM 举报功能,通过 tRPC API 执行自动化操作。
运用系统化设计原则、AI 评估与自动化灵感分析,打造美观的用户界面。
进阶视觉回归测试工具,具备像素级与AI辅助差异分析、跨浏览器验证及响应式设计检查,有效防止CI/CD流程中的UI回归问题。