scikit-learn
掌握 scikit-learn 机器学习。适用于 Python 中的分类、回归、聚类、预处理、模型评估,以及构建生产级机器学习管道。
简介
scikit-learn 技能是进行 Python 传统机器学习任务的综合参考与实现指南。专为数据科学家、研究工程师与 AI 开发人员设计,此技能支持从初步数据预处理、特征工程到复杂的模型选择、超参数调整以及生产环境管道部署的完整机器学习生命周期。它是执行分类、回归等监督式学习,以及聚类和降维等非监督式学习技术的专家级辅助工具。
-
完整实现支持,包含线性模型、树状算法 (随机森林、梯度提升)、支持向量机 (SVC/SVR) 及集成学习方法。
-
强大的预处理模块,包括 StandardScaler, MinMaxScaler, OneHotEncoder,以及像 KNNImputer 这样先进的填充策略。
-
稳健的模型评估工具,整合了 KFold、StratifiedKFold 以及针对时间序列数据的 TimeSeriesSplit 等交叉验证策略。
-
自动化模型选择与优化工作流,利用 GridSearchCV、RandomizedSearchCV 与 HalvingGridSearchCV 来识别最佳超参数。
-
利用 ColumnTransformer 与 Pipeline 对象构建生产级管道,封装完整的转换与建模序列。
-
基于指标的效能分析,涵盖分类报告、ROC AUC、混淆矩阵以及 RMSE、MAE 与 R 平方等回归指标。
-
本技能主要针对结构化表格数据与特征工程后的文字数据;若需深度学习架构,请参考相关框架的专门技能。
-
输入通常为 pandas DataFrames 或 numpy 数组;输出包含已训练的估计器、优化后的管道与效能评估指标。
-
请确保已预先安装 numpy, scipy 与 pandas 等依赖项;建议使用提供的 uv pip 安装指令来配置 scikit-learn, matplotlib 与 seaborn。
-
本技能着重于可解释的传统机器学习;请利用内含的参考文件查询特定算法参数、默认配置以及关于偏差与变异权衡的最佳实践方式。
仓库统计
- Star 数
- 19,629
- Fork 数
- 2,196
- Open Issue 数
- 41
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年4月28日 12:43