工程开发研究
evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
浏览: 22★ 7,624#Evaluation#Code Generation#HumanEval#MBPP
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 277 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
将调试数据、日志和可视化输出发送到 Ray 桌面应用程序,以便进行实时开发反馈。
为提示词中的 JSON 数据提供认知安全分析,防止大型语言模型在处理不完整或大规模数据集时产生幻觉与推理错误。
使用 Chrome DevTools MCP 和 AI 视觉模型进行 UI 测试、设计一致性验证及浏览器调试。
通过 CLI 管理 Higress AI Gateway 的自动模型路由。根据请求内容设置触发规则,实现智能模型选择。
执行网络协议逆向工程,包含数据包捕获、流量分析、协议解析及自定义格式文档化。
为 Istio 和 Linkerd 服务网格实现生产级可观测性,包含分布式追踪、指标仪表板及黄金信号监控。
Refly 生态系统基础技能。用于创建、探索及执行特定领域技能,通过符号链接路由用户意图至工作流程,并利用 Refly CLI 自动化执行多步骤任务。
自动化执行 GDPR、CCPA、HIPAA、SOC2 及 PCI-DSS 等法规遵循测试,确保法律合规性、准备审计并保护敏感数据。
通过 SSE 协议直接连接 RagCode MCP,无需繁琐的配置文件或二进制文件依赖。
针对 Go CLI 应用程序的专家级自动化代码审查,涵盖 Cobra/urfave 模式、安全性、性能、Go 惯用语法及完善的错误处理。
管理 BAZINGA-DB 核心引擎的数据库协调会话、状态快照及系统级操作。