工程开发研究
evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
浏览: 19★ 7,624#Evaluation#Code Generation#HumanEval#MBPP
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 234 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
根据研究叙述、实验数据与审稿结论,自动生成结构化的学术论文大纲。
P9 技术领队模式:通过任务提示(六要素)管理 P8 代理团队,无需亲自编写代码。负责项目管理、任务拆解,并协调 3 个以上平行代理执行任务。
从研究文档、技术论文和架构设计文件中,系统性地提取关键见解、决策记录与技术限制。
用于将任务分发给专业后台代理的智能编排系统,具备基于性能的路由与执行追踪功能。
设计与构建高质量 AI Agent Skills 的专家顾问。通过发现、架构与制作阶段的结构化引导,确保您建立的技能具备高度一致性、可组合性与执行效能。
公众号文章自动化写作流程。包含资料搜索、爆款标题生成、文章撰写与排版优化功能。
引导式统计分析,包含测试选择、假设检验、功效分析及 APA 格式报告,适用于学术与实验研究。
掌握 KPI 仪表板设计,利用成熟的指标框架、SMART 目标与层级模式,协助您从高阶决策到运营监控,全面提升业务绩效。
AI 驱动的 GitHub Actions 自动化,具备群体智能工作流编排、智能 CI/CD 流水线管理及自主仓库维护功能。
用于检测光度曲线中凌日系外行星与食双星的 BLS 周期图工具。基于 astropy 的周期、持续时间与深度分析实现。
一个多范式 ETL 流水线代理,支持批处理和流式数据处理、自动模式推断及基于 DAG 的可配置转换,适用于异构数据源。