evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 504 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
执行全面的交易可比性分析,利用同业乘数、运营关键指标与估值建模,评估公司相对价值。
Lovable 风格 AI 开发工作流程控制器。通过调度专门的子代理,即时生成优质、多页面且具备动画效果的应用程序。无需冗长提示,直接启动开发。
通过 PubMed、arXiv 和 Semantic Scholar 进行系统性文献回顾,包含人工智能驱动的综述、核实引用以及强制性的科学图表生成。
使用 Chrome DevTools MCP 和 AI 视觉模型进行 UI 测试、设计一致性验证及浏览器调试。
实现生产级 AI 代理。包含 LangGraph、工具调用护栏、SSE 流式传输、情节记忆与 pgvector。提供反模式分析与修正代码。
引导新用户进行 CISO Assistant 的初始设置,包括组织结构建立、框架选择以及通过 MCP 工具配置风险评估。
从实验数据生成学术论文级别的出版品质图表与 LaTeX 表格。
Gemini AI 命令行接口,支持单次 Prompt 执行、内容生成,以及为 OpenClaw 用户提供 JSON 格式的数据提取功能。
Sage MCP 协议实现,用于整合外部工具服务器与标准化 AI 模型上下文。
一套完整的 Claude Code 配置工具集,包含经实战验证的代理、技能、钩子与软件开发自动化工作流。
为初创企业构建 3-5 年财务模型,涵盖收入预测、成本结构、现金流分析及情境规划,支持募资与运营决策。