Agent Skills Hub

探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。

清除

共找到 123 个技能

工程开发研究
evaluating-code-models avatar

evaluating-code-models

使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试,提供多语言编码模型的 pass@k 指标评估。

浏览: 197,624#Evaluation#Code Generation#HumanEval#MBPP
工程开发数据分析研究
evaluation avatar

evaluation

为 AI 代理构建系统化的评估框架,利用多维评分标准、LLM-as-a-judge 与回归测试,量测代理效能、质量及上下文工程的有效性。

浏览: 2315,339
工程开发自动化
eval avatar

eval

通过自动化测试执行器、人工 LLM 判断与结构化报告,评估 Deca 代理提示词与行为一致性。

浏览: 171
工程开发数据分析自动化
trulens-evaluation-workflow avatar

trulens-evaluation-workflow

使用 TruLens 对 LLM 应用程序进行检测、评估与监控的系统化工作流程,支持 LangChain、LangGraph 与 LlamaIndex 等框架。

浏览: 113,286#trulens#llm#evaluation#workflow
数据分析研究工程开发
pymc avatar

pymc

使用 PyMC 进行贝叶斯建模与概率编程。构建分层模型,执行 MCMC 采样 (NUTS) 与变分推断,并透过 LOO/WAIC 进行严谨的模型比较与后验检查。

浏览: 819,798
数据分析研究工程开发
statsmodels avatar

statsmodels

Python 统计建模与计量经济学函数库。执行 OLS、GLM、混合模型、ARIMA、诊断与推论,适用于严谨的科学分析。

浏览: 1119,783
数据分析工程开发研究
scikit-learn avatar

scikit-learn

使用 scikit-learn 进行经典机器学习。适用于分类、回归、聚类、降维、数据预处理、模型评估,以及构建 Python 机器学习流程。

浏览: 719,694
内容创作研究生产力
generate-image avatar

generate-image

使用 AI 模型(如 FLUX 和 Gemini)生成或编辑图像。适用于照片、插图、概念艺术和视觉素材,不包含技术图表或原理图。

浏览: 411,655
研究教育生产力
scholar-evaluation avatar

scholar-evaluation

使用 ScholarEval 框架系统性地评估学术研究工作,针对研究质量维度提供结构化的定量与定性分析,并提供具备执行力的反馈建议。

浏览: 819,706
数据分析生产力工程开发
creating-financial-models avatar

creating-financial-models

一套完整的财务建模工具,用于投资分析,包含 DCF 折现现金流、敏感度分析、蒙特卡洛模拟及情境规划功能。

浏览: 7709
工程开发自动化
eval-harness avatar

eval-harness

克劳德代码会话的正式评估框架,实施评估驱动开发(EDD)原则,用于保障 AI 代理的可靠性。

浏览: 30169,888
工程开发自动化数据分析
claude-rag-skills avatar

claude-rag-skills

一套专业工具集,用于在 Claude Code 环境中审核、评估、切分文档及构建生产级 RAG 管线。

浏览: 2631