Agent Skills Hub

探索可复用的代理技能，查看实现细节，快速找到适合你工作流程的技能。

共找到 123 个技能

工程开发研究

evaluating-code-models

使用 BigCode Evaluation Harness 评估代码生成模型。涵盖 HumanEval、MBPP 和 MultiPL-E 等基准测试，提供多语言编码模型的 pass@k 指标评估。

浏览: 19★ 7,624#Evaluation#Code Generation#HumanEval#MBPP

工程开发数据分析研究

evaluation

为 AI 代理构建系统化的评估框架，利用多维评分标准、LLM-as-a-judge 与回归测试，量测代理效能、质量及上下文工程的有效性。

浏览: 23★ 15,339

工程开发自动化

eval

通过自动化测试执行器、人工 LLM 判断与结构化报告，评估 Deca 代理提示词与行为一致性。

浏览: 17★ 1

工程开发数据分析自动化

trulens-evaluation-workflow

使用 TruLens 对 LLM 应用程序进行检测、评估与监控的系统化工作流程，支持 LangChain、LangGraph 与 LlamaIndex 等框架。

浏览: 11★ 3,286#trulens#llm#evaluation#workflow

数据分析研究工程开发

pymc

使用 PyMC 进行贝叶斯建模与概率编程。构建分层模型，执行 MCMC 采样 (NUTS) 与变分推断，并透过 LOO/WAIC 进行严谨的模型比较与后验检查。

浏览: 8★ 19,798

数据分析研究工程开发

statsmodels

Python 统计建模与计量经济学函数库。执行 OLS、GLM、混合模型、ARIMA、诊断与推论，适用于严谨的科学分析。

浏览: 11★ 19,783

数据分析工程开发研究

scikit-learn

使用 scikit-learn 进行经典机器学习。适用于分类、回归、聚类、降维、数据预处理、模型评估，以及构建 Python 机器学习流程。

浏览: 7★ 19,694

内容创作研究生产力

generate-image

使用 AI 模型（如 FLUX 和 Gemini）生成或编辑图像。适用于照片、插图、概念艺术和视觉素材，不包含技术图表或原理图。

浏览: 41★ 1,655

研究教育生产力

scholar-evaluation

使用 ScholarEval 框架系统性地评估学术研究工作，针对研究质量维度提供结构化的定量与定性分析，并提供具备执行力的反馈建议。

浏览: 8★ 19,706

数据分析生产力工程开发

creating-financial-models

一套完整的财务建模工具，用于投资分析，包含 DCF 折现现金流、敏感度分析、蒙特卡洛模拟及情境规划功能。

浏览: 7★ 709

工程开发自动化

eval-harness

克劳德代码会话的正式评估框架，实施评估驱动开发（EDD）原则，用于保障 AI 代理的可靠性。

浏览: 30★ 169,888

工程开发自动化数据分析

claude-rag-skills

一套专业工具集，用于在 Claude Code 环境中审核、评估、切分文档及构建生产级 RAG 管线。

浏览: 26★ 31

创业课程

在线课程

实体课程