工程开发研究
evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
浏览: 19★ 7,624#Evaluation#Code Generation#HumanEval#MBPP
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 172 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
通过分析可用技能、制定结构化执行计划并管理手动或委派的多步骤工作流程,来统筹复杂的编程任务。
生成与 IntelliJ coding-aider 插件兼容的结构化开发计划、检查清单及文件上下文。
探索并分析 GitHub 热门项目,评估项目活跃度、技术栈与文档质量,快速获取开源生态趋势报告。
为股票和 ETF 进行全面的技术分析,使用 RSI、MACD 和布林带等指标生成可操作的交易信号与比较报告。
Multigres 项目开发工具:自动化执行单元测试、集成测试以及环境协调,适用于 Vitess-for-Postgres。
积极精简输入内容中的语法结构与冗余文字,在保留核心语义的同时优化 LLM 的 Token 使用效率。
AI 代理的执行前安全防护机制。针对 Shell 指令和文件读取执行 400 多种安全模式验证,拦截具破坏性的操作、凭证窃取与未授权的系统访问。
用于在 Claude Code 和 Gemini CLI 扩展之间转换及同步 AI 代理技能的通用 CLI 工具。
Claude Code 高级开发指南,涵盖 REPL 环境、MCP 集成、开发工作流及 AI 辅助编程最佳实践,助力提升开发效率。
AI 编码代理的共享内存与协作层,用于追踪操作、管理会话、检测冲突,并跨工具保留项目上下文。
根据研究叙述、实验数据与审稿结论,自动生成结构化的学术论文大纲。