工程开发研究
evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
浏览: 19★ 7,624#Evaluation#Code Generation#HumanEval#MBPP
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 341 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
AI 辅助代码代理版本控制。通过 MemoV 自动追踪提示词、上下文与差异,确保完整可追溯性,且不污染 Git 历史记录。
架构与优化生产级别的 RAG 系统。精通嵌入模型、向量数据库、分块策略及检索管线,提升 LLM 应用的精确度。
通过捕获浏览器流量 (HAR 文件) 进行网络 API 逆向工程,并自动生成可用于自动化与数据提取的 Python API 客户端。
中文日常实用工具集:天气预报、汇率查询、新闻摘要与快递追踪。无需配置,开箱即用。
API 接口测试自动化工具,支持 REST/GraphQL。集成功能测试、性能测试、契约测试及 Mock 服务,提供完整测试解决方案。
基于代码库分析自动生成项目文档,确保准确性、一致性并符合 VilnaCRM 架构模式。
实现 Google Gemini API 图像分析功能,包含图像描述、对象检测、图像分割、视觉问答及多图对比分析。
通过 llms.txt、MCP 搜索与智能解析策略,有效率地读取并导航外部技术文档。
结构化、模板驱动的端到端功能开发工作流,包含编码、自动化测试、验证及基于会话的持续改进。
Google Gemini 图像生成 API 接口,支持文本转图像、图像编辑、风格模板与自动重试工作流程。
为 OpenClaw 管理 OpenRouter 免费 AI 模型。自动根据质量排序模型、配置速率限制的后备方案,并更新 openclaw.json 设置。