Agent Skills Hub

Discover reusable agent skills, browse implementation details, and find the right skill for your workflow.

123 skills found

evaluating-code-models

Evaluate code generation models using BigCode Evaluation Harness. Benchmarks include HumanEval, MBPP, and MultiPL-E with pass@k metrics for multi-language coding models.

Views: 19★ 7,624#Evaluation#Code Generation#HumanEval#MBPP

EngineeringData AnalysisResearch

evaluation

Build systematic evaluation frameworks for AI agents using multi-dimensional rubrics, LLM-as-a-judge, and regression testing to measure performance, quality, and context engineering effectiveness.

Views: 23★ 15,339

EngineeringAutomation

eval

Evaluate Deca agent prompts and behavioral consistency through automated test runners, manual LLM judgment, and structured reporting.

Views: 17★ 1

EngineeringData AnalysisAutomation

trulens-evaluation-workflow

A systematic workflow to instrument, evaluate, and monitor LLM applications using TruLens, supporting frameworks like LangChain, LangGraph, and LlamaIndex.

Views: 11★ 3,286#trulens#llm#evaluation#workflow

Data AnalysisResearchEngineering

pymc

Bayesian modeling and probabilistic programming with PyMC. Build hierarchical models, perform MCMC sampling (NUTS), variational inference, and conduct rigorous model comparison using LOO and WAIC.

Views: 8★ 19,798

Data AnalysisResearchEngineering

statsmodels

Statistical modeling and econometrics library for Python. Performs OLS, GLM, mixed models, ARIMA, diagnostics, and inference for rigorous scientific analysis.

Views: 11★ 19,783

Data AnalysisEngineeringResearch

scikit-learn

Classical machine learning with scikit-learn. Use for classification, regression, clustering, dimensionality reduction, preprocessing, model evaluation, and building robust ML pipelines in Python.

Views: 7★ 19,694

ContentResearchProductivity

generate-image

Generate or edit images using AI models like FLUX and Gemini. Ideal for photos, illustrations, concept art, and visual assets, excluding technical diagrams and schematics.

Views: 41★ 1,655

ResearchEducationProductivity

scholar-evaluation

Systematically evaluate scholarly work using the ScholarEval framework, providing structured, quantitative, and qualitative assessment across research quality dimensions with actionable feedback.

Views: 8★ 19,706

Data AnalysisProductivityEngineering

creating-financial-models

A comprehensive financial modeling suite for investment analysis, featuring DCF valuation, sensitivity testing, Monte Carlo simulations, and scenario planning.

Views: 7★ 709

EngineeringAutomation