資料分析
scikit-learn avatar

scikit-learn

掌握 scikit-learn 機器學習。適用於 Python 中的分類、迴歸、分群、預處理、模型評估,以及構建生產級機器學習管道。

簡介

scikit-learn 技能是進行 Python 傳統機器學習任務的綜合參考與實作指南。專為數據科學家、研究工程師與 AI 開發人員設計,此技能支援從初步數據預處理、特徵工程到複雜的模型選擇、超參數調整以及生產環境管道部署的完整機器學習生命週期。它是執行分類、迴歸等監督式學習,以及分群和降維等非監督式學習技術的專家級輔助工具。

  • 完整實作支援,包含線性模型、樹狀演算法 (隨機森林、梯度提升)、支援向量機 (SVC/SVR) 及集成學習方法。

  • 強大的預處理模組,包括 StandardScaler, MinMaxScaler, OneHotEncoder,以及像 KNNImputer 這樣先進的填補策略。

  • 穩健的模型評估工具,整合了 KFold、StratifiedKFold 以及針對時間序列數據的 TimeSeriesSplit 等交叉驗證策略。

  • 自動化模型選擇與優化工作流,利用 GridSearchCV、RandomizedSearchCV 與 HalvingGridSearchCV 來辨識最佳超參數。

  • 利用 ColumnTransformer 與 Pipeline 物件構建生產級管道,封裝完整的轉換與建模序列。

  • 基於指標的效能分析,涵蓋分類報告、ROC AUC、混淆矩陣以及 RMSE、MAE 與 R 平方等迴歸指標。

  • 本技能主要針對結構化表格數據與特徵工程後的文字數據;若需深度學習架構,請參考相關框架的專門技能。

  • 輸入通常為 pandas DataFrames 或 numpy 陣列;輸出包含已訓練的估計器、優化後的管道與效能評估指標。

  • 請確保已預先安裝 numpy, scipy 與 pandas 等依賴項;建議使用提供的 uv pip 安裝指令來配置 scikit-learn, matplotlib 與 seaborn。

  • 本技能著重於可解釋的傳統機器學習;請利用內含的參考檔案查詢特定演算法參數、預設配置以及關於偏差與變異權衡的最佳實作方式。

倉庫統計

Star 數
19,629
Fork 數
2,196
Open Issue 數
41
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年4月28日 下午12:43
在 GitHub 查看