工程开发研究
evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
浏览: 19★ 7,624#Evaluation#Code Generation#HumanEval#MBPP
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 139 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
为技术架构、复杂重构与结构化调试提供多视角 AI 咨询服务。
开发周期 Gate 2 技能,用于验证可观测性实现,包含结构化日志、OpenTelemetry 追踪及仪表覆盖率,且不修改代码。
为 AI 代理实现自动化的关键自我验证层,在完成任务前确保代码质量、安全性和需求一致性。
将 Markdown 格式的产品需求文档 (PRD) 转换为 Ralph 自主 AI 代理系统所需的 prd.json 结构,以实现可重复且具备上下文意识的软件开发。
根据 Hyperlane 文档标准审查文档变更,确保内容符合架构模式与规范。
针对 Go CLI 应用程序的专家级自动化代码审查,涵盖 Cobra/urfave 模式、安全性、性能、Go 惯用语法及完善的错误处理。
通过并行代理执行分析项目结构、依赖项与代码模式,为快速上手陌生代码库与 AI 辅助开发生成详尽的工程背景文档。
在独立会话中执行实施计划并进行审核检查点,确保逐项任务验证与代码质量。
STYLY-NetSync 自动代码审查,执行协议一致性、线程安全及 Unity C#/Python 编码规范。
根据 Figma 或设计稿实现 UI 组件,提供像素级精确度、智能设计验证与自适应代理切换功能。
节省 token 的代码分析技能,支持调用图、语义搜索、影响分析与数据流追踪。相比原始代码读取节省约 95% token。