evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 138 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
通过成熟的提示工程原则,将模糊或结构不良的指令转换为优化且高效的 AI 模型提示,提升执行质量与准确性。
使用 CasADi 和 IPOPT 的非线性优化工具组。适用于建立复杂的 NLP 模型、定义符号变量、约束条件与求解器,并提供电力系统优化模式的专业支持。
使用 PyMC 进行贝叶斯建模与概率编程。构建分层模型,执行 MCMC 采样 (NUTS) 与变分推断,并透过 LOO/WAIC 进行严谨的模型比较与后验检查。
视频内容全链路处理流水线,将原始录影自动转化为逐字稿、观点摘要、短视频切片及可发布文章。
应用认知科学框架于计算机科学与人工智能研究,通过系统化的创造力策略生成具备原创性的研究方向。
使用 MCP 工具获取最新的技术资讯,针对函数库、API、SDK 及技术生态系统提供经过验证的指导。
使用智谱 (Zhipu) AI 网页搜索 API 进行互联网搜索,快速获取即时资讯、新闻与最新数据。
基于 Apple Silicon 与 MLX 的本地机器学习推理服务,整合语音识别 (ASR)、语音合成 (TTS)、翻译、图像生成与视觉识别功能。
通过 MCP 将您的 AI 代理连接至 Hugging Face Hub。搜索模型、数据集与论文,管理存储库,执行云端计算任务,并将 Gradio Spaces 作为 AI 工具调用使用。
使用 AgentDB 的超快速向量后端实现 ReasoningBank 自适应学习。具备轨迹追踪、判定评估、记忆蒸馏与模式识别功能,适用于构建自我学习的自主智能体。
先进的上下文工程系统,用于协调 AI 代理、内存管理和 Token 优化,以提升长期持久性和项目智慧。