工程开发研究
evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
浏览: 19★ 7,624#Evaluation#Code Generation#HumanEval#MBPP
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 135 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
通过 ReasoningBank 实现代理程序的自适应学习,进行模式识别、策略优化与持续改进。
通过本地 ComfyUI 实例生成高质量图像。适合需要隐私保护、专业 AI 图像合成与自定义工作流的开发者。
恢复暂停的实验循环,通过还原分支内容、加载配置、读取结果历史记录及识别优化模式,协助您继续进行迭代与研究。
掌握先进的提示工程技术,以最大化生产环境中大型语言模型(LLM)的性能、可靠性和可控性。
自动化 lading 性能优化的提交流程,包含分支管理、git 提交与 Pull Request 创建。
通过管理插件来自我修改 Milady 代理。编辑代码、重建并重新启动运行环境,以开发新功能或本地优化代理工作流程。
通过可配置的 YAML 模板将内容转换为特定的语音配置、语气或风格,以确保品牌与叙事输出的一致性。
AReaL 分布式训练调试指南,涵盖 FSDP2/TP/CP/EP 环境下的挂起、NCCL 错误、显存溢出与数值一致性问题。
为构建 Claude API 生产级应用提供专家指导,涵盖 SDK 使用、提示词缓存、批量处理、流式传输、工具调用及成本优化策略。
使用结构化 JSON 提示词与自动化 Python 脚本生成高质量的图像、角色与场景,支持参考图像以进行精确的视觉创作。
一套专业工具集,用于在 Claude Code 环境中审核、评估、切分文档及构建生产级 RAG 管线。