evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 187 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
通过 MCP 操作 Google Tag Manager。直接从您的 LLM Agent 处理 OAuth 认证、资源发现以及代码 (Tags)、触发器 (Triggers) 与变量 (Variables) 的 CRUD 操作。
将 Snowflake 与 MCP 客户端整合。管理 Snowflake 端点、验证连接,并直接在您的 AI 工作流程中运用 Cortex AI (Search, Analyst, Agent) 服务。
面向 AI 辅助开发的虚拟任务管理系统。通过精准的上下文注入,高效管理任务生命周期、依赖关系及测试驱动开发 (TDD) 工作流。
爬取网站并将内容保存为整洁的 Markdown 文件。适用于文档提取、研究分析与离线知识库建立。
生成 0 到 9999 之间的随机幸运数字,适用于游戏、决策或娱乐需求。
统一的 AI 网关,支持超过 100 种大语言模型,提供兼容 OpenAI 的 API、模型回退、负载均衡及企业级管理工具。
高中语文国学考试解题助手,采用上下文工程与检索增强生成架构,提供高准确度、具可解释性的解题服务。
根据 litellm 注册表审核并同步 assets.py 中的支持 LLM 模型列表。
节省 token 的代码分析技能,支持调用图、语义搜索、影响分析与数据流追踪。相比原始代码读取节省约 95% token。
用于验证 AI 代理技能配置并检测规则违规的测试夹具。
将整个代码库打包成单一、适合 AI 阅读的文件。适用于为 Claude、ChatGPT 和 Gemini 提供代码上下文,以进行代码分析、安全审计与错误排查。