evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 131 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
为 LangChain 应用程序提供统一接口,整合并管理 OpenAI、Anthropic、Google、Azure 和 Bedrock 等 LLM 聊天模型服务。
使用 Qwen ASR 模型将音频文件 (wav, mp3, ogg) 转录为文本。快速、支持本地运行,无需 API 密钥。
一个 AI 驱动的技能,可针对复杂的编程任务,自动从 RAG 知识库中检索相关的项目上下文。
代理角色侦探技能标准化集成。将代理映射至代码分析技能,并强制执行 claudemem 以实现索引内存代码调查。
从 DeepEar Lite 平台获取即时金融信号、传导链推理及市场信心指标,协助 AI 代理进行深度市场分析。
管理、搜索并从本地论文数据库中提取技术见解。适合开发者实作学术研究、验证代码与数学逻辑,以及为 AI 编程代理提供科学论文背景资料。
掌握 LangGraph 多智能体编排。使用监管者-工作者模式、条件路由与状态管理,构建具备容错能力的复杂 AI 工作流。
使用 LangChain 1.x 与 LangGraph 构建生产级 LLM 应用程序。实现状态化 AI 代理、多步骤工作流程,并为复杂的对话与自动化任务构建自定义记忆系统。
使用真实 Chrome 浏览器进行 JavaScript 渲染的高级 Google 搜索。适用于抓取完整网页内容、指定网站搜索及时间筛选结果。
统一的 AI 网关,支持超过 100 种大语言模型,提供兼容 OpenAI 的 API、模型回退、负载均衡及企业级管理工具。
构建企业级 AI 代理系统,支持 LangGraph、Anthropic/OpenAI/vLLM 与结构化输出。具备流式传输、A2A 协议、Pydantic 验证、向量记忆体与防幻觉机制,适用于复杂的多代理协作工作流。