evaluating-code-models
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 123 个技能
使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。
为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。
通过自动化测试执行器、人工 LLM 判断与结构化报告,评估 Deca 代理提示词与行为一致性。
使用 TruLens 对 LLM 应用程序进行检测、评估与监控的系统化工作流程,支持 LangChain、LangGraph 与 LlamaIndex 等框架。
使用 PyMC 进行贝叶斯建模与概率编程。构建分层模型,执行 MCMC 采样 (NUTS) 与变分推断,并透过 LOO/WAIC 进行严谨的模型比较与后验检查。
Python 统计建模与计量经济学函数库。执行 OLS、GLM、混合模型、ARIMA、诊断与推论,适用于严谨的科学分析。
使用 scikit-learn 进行经典机器学习。适用于分类、回归、聚类、降维、数据预处理、模型评估,以及构建 Python 机器学习流程。
使用 AI 模型(如 FLUX 和 Gemini)生成或编辑图像。适用于照片、插图、概念艺术和视觉素材,不包含技术图表或原理图。
使用 ScholarEval 框架系统性地评估学术研究工作,针对研究质量维度提供结构化的定量与定性分析,并提供具备执行力的反馈建议。
一套完整的财务建模工具,用于投资分析,包含 DCF 折现现金流、敏感度分析、蒙特卡洛模拟及情境规划功能。
克劳德代码会话的正式评估框架,实施评估驱动开发(EDD)原则,用于保障 AI 代理的可靠性。
一套专业工具集,用于在 Claude Code 环境中审核、评估、切分文档及构建生产级 RAG 管线。