evaluating-code-models
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 123 個技能
使用 BigCode Evaluation Harness 評估代碼生成模型。包含 HumanEval、MBPP 和 MultiPL-E 等基準測試,並提供多語言編碼模型的 pass@k 指標評估。
為 AI 代理構建系統化的評估框架,利用多維評分標準、LLM-as-a-judge 與回歸測試,量測代理效能、品質及上下文工程的有效性。
透過自動化測試執行器、人工 LLM 判斷與結構化報告,評估 Deca 代理提示詞與行為一致性。
使用 TruLens 對 LLM 應用程式進行檢測、評估與監控的系統化工作流程,支援 LangChain、LangGraph 與 LlamaIndex 等框架。
使用 PyMC 進行貝葉斯建模與機率編程。構建分層模型,執行 MCMC 採樣 (NUTS) 與變分推斷,並透過 LOO/WAIC 進行嚴謹的模型比較與後驗檢查。
Python 統計建模與計量經濟學函式庫。執行 OLS、GLM、混合模型、ARIMA、診斷與推論,適用於嚴謹的科學分析。
使用 scikit-learn 進行經典機器學習。適用於分類、迴歸、分群、降維、資料預處理、模型評估,以及構建 Python 機器學習流程。
使用 AI 模型(如 FLUX 和 Gemini)生成或編輯影像。適用於照片、插圖、概念藝術和視覺素材,不包含技術圖表或原理圖。
使用 ScholarEval 框架系統性地評估學術研究工作,針對研究品質維度提供結構化的定量與定性分析,並提供具備執行力的反饋建議。
一套完整的財務建模工具,用於投資分析,包含 DCF 折現現金流、敏感度分析、蒙地卡羅模擬及情境規劃功能。
AI 代理會話的正式評估框架,實施評估驅動開發 (EDD) 原則以確保代理可靠性。
一套專業工具集,用於在 Claude Code 環境中審核、評估、切分文件及構建生產級 RAG 管線。