数据分析
scikit-learn avatar

scikit-learn

掌握 scikit-learn 机器学习。适用于 Python 中的分类、回归、聚类、预处理、模型评估,以及构建生产级机器学习管道。

简介

scikit-learn 技能是进行 Python 传统机器学习任务的综合参考与实现指南。专为数据科学家、研究工程师与 AI 开发人员设计,此技能支持从初步数据预处理、特征工程到复杂的模型选择、超参数调整以及生产环境管道部署的完整机器学习生命周期。它是执行分类、回归等监督式学习,以及聚类和降维等非监督式学习技术的专家级辅助工具。

  • 完整实现支持,包含线性模型、树状算法 (随机森林、梯度提升)、支持向量机 (SVC/SVR) 及集成学习方法。

  • 强大的预处理模块,包括 StandardScaler, MinMaxScaler, OneHotEncoder,以及像 KNNImputer 这样先进的填充策略。

  • 稳健的模型评估工具,整合了 KFold、StratifiedKFold 以及针对时间序列数据的 TimeSeriesSplit 等交叉验证策略。

  • 自动化模型选择与优化工作流,利用 GridSearchCV、RandomizedSearchCV 与 HalvingGridSearchCV 来识别最佳超参数。

  • 利用 ColumnTransformer 与 Pipeline 对象构建生产级管道,封装完整的转换与建模序列。

  • 基于指标的效能分析,涵盖分类报告、ROC AUC、混淆矩阵以及 RMSE、MAE 与 R 平方等回归指标。

  • 本技能主要针对结构化表格数据与特征工程后的文字数据;若需深度学习架构,请参考相关框架的专门技能。

  • 输入通常为 pandas DataFrames 或 numpy 数组;输出包含已训练的估计器、优化后的管道与效能评估指标。

  • 请确保已预先安装 numpy, scipy 与 pandas 等依赖项;建议使用提供的 uv pip 安装指令来配置 scikit-learn, matplotlib 与 seaborn。

  • 本技能着重于可解释的传统机器学习;请利用内含的参考文件查询特定算法参数、默认配置以及关于偏差与变异权衡的最佳实践方式。

仓库统计

Star 数
19,629
Fork 数
2,196
Open Issue 数
41
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年4月28日 12:43
在 GitHub 查看