Python 機器學習實戰入門

線上課程,四堂,每堂三小時 | 總時數:12 小時

授課模式:線上互動

課程簡介

本課程從機器學習基礎開始,逐步進階至專業應用,適合無經驗的辦公室從業員學習 Python 在 ML 上的實戰技能。涵蓋數據準備、模型建構、評估與部署,每堂以講解、程式示範及小組練習為主。此大綱可根據學員反饋微調,強調從新手到專業的實用轉型。

第一堂:機器學習基礎與數據準備(3 小時)

內容重點:

  • • ML 概念入門:監督式/非監督式學習、回歸與分類基礎;使用 Scikit-learn 安裝與導入,介紹資料集如 Iris 或辦公室銷售數據;討論 ML 應用於業務決策的價值與潛在挑戰。
  • • 數據準備技巧:使用 Pandas 清理數據、處理缺失值與特徵工程(如標準化、One-Hot 編碼);介紹 NumPy 陣列操作與數據分割(train/test split);涵蓋時間序列數據的排序與滯後特徵建立。
  • • 探索性數據分析基礎:使用 Seaborn 視覺化數據分佈與相關性;介紹描述性統計如中位數、變異數及 skewness 計算;討論數據品質檢查清單與常見偏差來源。

第二堂:監督式學習與模型評估(3 小時)

內容重點:

  • • 監督式模型實作:邏輯斯迴歸與決策樹分類客戶流失;介紹隨機森林優化單一樹模型,涵蓋超參數調校基礎;討論 SVM 與 KNN 作為替代分類器的優缺點。
  • • 模型評估指標:準確率、精準率、召回率與 F1-score;使用交叉驗證避免過擬合,解釋 ROC 曲線與混淆矩陣視覺化;介紹 RMSE 與 MAE 用於回歸模型評估。
  • • 偏差-變異權衡概念:解釋 underfitting 與 overfitting 徵兆及診斷方法;使用學習曲線視覺化模型穩定性;討論樣本權重調整處理不平衡數據。

第三堂:非監督式學習與集成方法(3 小時)

內容重點:

  • • 非監督式學習:K-Means 聚類分析客戶分群與 PCA 降維視覺化高維數據;介紹階層式聚類與 DBSCAN 處理噪音數據;討論 t-SNE 用於非線性降維應用。
  • • 集成學習進階:XGBoost 與 LightGBM 提升模型效能,涵蓋 bagging 與 boosting 概念;討論特徵工程在集成模型的角色;介紹 AdaBoost 作為簡單集成起點。
  • • 聚類評估方法:輪廓分數與 Davies-Bouldin 指數;解釋肘部法則決定最佳 K 值;討論集成模型在不平衡數據上的優勢。

第四堂:深度學習與生產部署(3 小時)

內容重點:

  • • 深度學習入門:使用 Keras/TensorFlow 建構 CNN 圖像分類與 RNN 時間序列預測;介紹遷移學習加速辦公文件辨識;涵蓋 LSTM 處理序列依賴與 dropout 防過擬合。
  • • 模型部署實務:使用 Flask/Streamlit 建置 API 與互動應用;涵蓋 Docker 容器化與雲端部署如 Heroku/AWS;討論 CI/CD 管道整合 ML 工作流。
  • • 深度模型優化:學習率調度與批次正規化;介紹 GAN 基礎用於數據增強;解釋 Transformer 架構在 NLP 辦公自動化的潛力。

 

en_USEnglish