Agent Skills Hub

探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。

清除

共找到 123 個技能

工程開發研究
evaluating-code-models avatar

evaluating-code-models

使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。

瀏覽: 197,624#Evaluation#Code Generation#HumanEval#MBPP
工程開發資料分析研究
evaluation avatar

evaluation

為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。

瀏覽: 2315,339
工程開發自動化
eval avatar

eval

透過自動化測試執行器、人工 LLM 判斷與結構化報告,評估 Deca 代理提示詞與行為一致性。

瀏覽: 171
工程開發資料分析自動化
trulens-evaluation-workflow avatar

trulens-evaluation-workflow

使用 TruLens 對 LLM 應用程式進行檢測、評估與監控的系統化工作流程,支援 LangChain、LangGraph 與 LlamaIndex 等框架。

瀏覽: 113,286#trulens#llm#evaluation#workflow
資料分析研究工程開發
pymc avatar

pymc

使用 PyMC 進行貝葉斯建模與機率編程。構建分層模型,執行 MCMC 採樣 (NUTS) 與變分推斷,並透過 LOO/WAIC 進行嚴謹的模型比較與後驗檢查。

瀏覽: 819,798
資料分析研究工程開發
statsmodels avatar

statsmodels

Python 統計建模與計量經濟學函式庫。執行 OLS、GLM、混合模型、ARIMA、診斷與推論,適用於嚴謹的科學分析。

瀏覽: 1119,783
資料分析工程開發研究
scikit-learn avatar

scikit-learn

使用 scikit-learn 進行經典機器學習。適用於分類、迴歸、分群、降維、資料預處理、模型評估,以及構建 Python 機器學習流程。

瀏覽: 719,694
內容創作研究生產力
generate-image avatar

generate-image

使用 AI 模型(如 FLUX 和 Gemini)生成或編輯影像。適用於照片、插圖、概念藝術和視覺素材,不包含技術圖表或原理圖。

瀏覽: 411,655
研究教育生產力
scholar-evaluation avatar

scholar-evaluation

使用 ScholarEval 框架系統性地評估學術研究工作,針對研究品質維度提供結構化的定量與定性分析,並提供具備執行力的反饋建議。

瀏覽: 819,706
資料分析生產力工程開發
creating-financial-models avatar

creating-financial-models

一套完整的財務建模工具,用於投資分析,包含 DCF 折現現金流、敏感度分析、蒙地卡羅模擬及情境規劃功能。

瀏覽: 7709
工程開發自動化
eval-harness avatar

eval-harness

AI 代理會話的正式評估框架,實施評估驅動開發 (EDD) 原則以確保代理可靠性。

瀏覽: 30169,888
工程開發自動化資料分析
claude-rag-skills avatar

claude-rag-skills

一套專業工具集,用於在 Claude Code 環境中審核、評估、切分文件及構建生產級 RAG 管線。

瀏覽: 2631