scikit-learn
使用 scikit-learn 進行經典機器學習。適用於分類、迴歸、分群、降維、資料預處理、模型評估,以及構建 Python 機器學習流程。
簡介
scikit-learn 技能為實作經典機器學習工作流程提供了全面的工具箱。專為需要可靠、可解釋且高效演算法進行結構化資料分析的資料科學家、研究人員和工程師而設計。無論是進行探索性資料分析、特徵工程還是部署預測模型,此技能都能作為業界標準 Python 程式庫的參考,確保在流程開發、模型選擇和效能評估方面的最佳實踐。
-
監督式學習實作,涵蓋線性模型、支援向量機 (SVM)、決策樹、隨機森林、梯度提升和類神經網路,適用於分類與迴歸任務。
-
無監督學習功能,包含分區式、密度式和階層式分群,以及透過 PCA、t-SNE 和 UMAP 進行的流形學習與降維。
-
進階模型選擇與調校工具,例如用於超參數的網格搜尋 (Grid Search) 與隨機搜尋、K-Fold 與時間序列分割等交叉驗證策略,以及用於模型驗證的穩健指標計算。
-
廣泛的資料預處理工具,包含標準化、正規化、類別變數編碼以及處理缺失資料的插補法。
-
利用 Scikit-Learn 的 Pipeline 與 ColumnTransformer 模組建立生產級的機器學習管線,以自動化資料轉換與模型擬合。
-
推薦用於涉及表格資料、特徵選擇和迭代模型實驗的任務。
-
可與 pandas、numpy 以及 matplotlib、seaborn 等視覺化程式庫無縫整合,進行全面的資料分析。
-
使用者應提供乾淨的結構化輸入資料;複雜的文字或影像處理可能需要核心 scikit-learn 之外的額外預訓練模型或深度學習程式庫。
-
請務必使用適當的交叉驗證技術來驗證模型,以確保其泛化能力並防止過度擬合。
-
利用提供的範本確保在研究與工程專案中,資料處理的可重現性與評估指標的一致性。
倉庫統計
- Star 數
- 19,694
- Fork 數
- 2,198
- Open Issue 數
- 42
- 主要語言
- Python
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年4月29日 上午07:05