工程开发研究
evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
浏览: 19★ 7,624#Evaluation#Code Generation#HumanEval#MBPP
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 398 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
探索并分析 GitHub 热门项目,评估项目活跃度、技术栈与文档质量,快速获取开源生态趋势报告。
为技术架构、复杂重构与结构化调试提供多视角 AI 咨询服务。
MoAI-ADK 基础架构原则,包含 TRUST 5、SPEC-First TDD、委派模式以及节省 Token 的代理人协作工作流程。
精通 React Native 样式、导航与 Reanimated 动画。构建高性能、跨平台的原生体验移动应用。
Claude Code 的自主多智能体协调框架,具备记忆驱动工作流程、优先并行执行、基于亚里士多德原则的拆解与多阶段质量把关。
引导式功能开发代理,通过系统化的代码探索、架构设计、代码实现与自动化测试完整周期完成开发任务。
设计并实现微交互、动态设计与转场效果。用于提升 UI 精致度、实现加载状态,并创造直观、令人愉悦的用户反馈体验。
执行基于 Gradle 的 Java 测试,过滤失败结果与关键统计数据,并提供精简报告以简化后端开发与调试。
实现生产级 AI 代理。包含 LangGraph、工具调用护栏、SSE 流式传输、情节记忆与 pgvector。提供反模式分析与修正代码。
掌握 REST 和 GraphQL API 设计原则,构建直观、可扩展且易于维护,并令开发者满意的 API。
通过结构化的自我评估检查点,确保 AI 在任务执行前、中、后的方案验证与风险管控,提升程序开发质量。