evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 489 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
SPARC 开发方法论,结合 Claude Flow 多代理协作,实现从规格、伪代码、架构到重构与完成的系统化软件工程。
基于 Notion 的推文性能追踪系统,通过强化学习原理实现数据驱动的内容实验与优化。
使用 React、Vite、TypeScript、Tailwind 和 shadcn/ui 构建、审核并迭代高转化率着陆页。专注于转换率优化 (CRO)、首屏结构以及使用 Iconify 图标的高质量界面设计。
提供识别、审查与管理由 GitHub Copilot 编码代理在存储库中创建的提取请求 (PR) 的操作指南与技巧。
AI 代理的即时技能发现引擎。通过 REST API 或 MCP 按需搜索并检索专业代理技能 (SKILL.md),将程序性知识即时注入到代理的上下文中。
建立高转化率的销售、产品发布与潜在客户培养邮件序列。根据您的业务风格、受众与营销目标,自动生成专业的电子邮件营销活动。
Lovable 风格 AI 开发工作流程控制器。通过调度专门的子代理,即时生成优质、多页面且具备动画效果的应用程序。无需冗长提示,直接启动开发。
自动化 MassGen 发布准备流程,包括生成 CHANGELOG 条目、草拟发布公告以及在 git 标记前验证文档完整性。
为文档、技术规格与提案提供结构化的共同创作工作流程,引导用户进行背景信息收集、协作式修订与读者核对。
为 AI 代理设计的自动化记忆管理中间件,通过“查-回-存”闭环实现跨对话的长期记忆维持与上下文自动管理。
通过提供领域特定令牌、魔术字节与协议关键字,引导模糊测试器深入挖掘代码路径,提升测试效率。