Python 日常辦公室數據處理入門

線上課程,六堂,每堂三小時 | 總時數:18 小時

授課模式:線上互動

課程簡介

本課程旨在為辦公室從業員提供實用技能,透過 Python 處理日常數據任務,包括數據清理、視覺化分析,以及整合 AI 工具輔助決策分析。課程以實操為主,每堂包括講解、程式示範及小組練習,適合無編程基礎的學員。此大綱可根據學員反饋微調,強調實用性與即時應用。

第一堂:Python 基礎與數據導入(3 小時)

內容重點:

  • • Python 環境設定及基本語法介紹(變數、列表、迴圈、條件式及函數,例如使用變數儲存員工姓名列表,並以迴圈計算總薪資;介紹 Anaconda 環境安裝與 Jupyter Notebook 使用)。
  • • 使用 Pandas 庫導入及清理辦公室數據(如 Excel/CSV 檔案,例如讀取客戶訂單檔案並移除重複記錄;處理缺失值、數據類型轉換及基本篩選操作)。
  • • 實操:處理簡單銷售或員工數據,自動化重複任務,例如合併多個月銷售報告或篩選逾期發票;練習數據驗證與錯誤處理機制。
  • • 額外資源:提供範例程式碼與常見錯誤排除指南,鼓勵學員在 Jupyter 中即時測試。

第二堂:數據分析與視覺化(3 小時)

內容重點:

  • • 使用 NumPy、Pandas 及 SciPy 進行基本統計分析(平均值、趨勢計算、相關性分析,例如計算季度銷售成長率、部門生產力中位數,或使用 SciPy 進行 t-檢定比較不同團隊表現;介紹變異數與假設檢定基礎)。
  • • 透過 Matplotlib/Seaborn/Plotly 繪製圖表(如柱狀圖、折線圖、互動熱圖),分析業務指標,例如繪製產品銷售熱圖、客戶滿意度趨勢線,或使用 Plotly 建立可縮放的儀表板顯示 KPI 變化;介紹 Dash 框架快速建置互動儀表板。
  • • 實操:模擬月度報告,視覺化銷售趨勢或預算分配,例如生成餅圖顯示預算類別分佈、散點圖分析價格與銷量關係、箱形圖比較區域銷售變異,或互動地圖顯示客戶分佈;小組分享圖表設計最佳實務。
  • • 進階分析技巧:介紹簡單線性回歸(使用 Statsmodels 預測銷售趨勢)、樞紐分析表(Pandas pivot_table 彙總多維數據)、及異常值偵測(使用 Z-score 方法識別離群銷售記錄);討論多變量回歸擴展應用。

第三堂:進階機器學習應用(3 小時)

內容重點:

  • • 介紹深度學習基礎,使用 Keras/TensorFlow 建構簡單神經網絡,例如預測客戶行為或圖像分類辦公文件;涵蓋前饋網絡與激活函數概念。
  • • 模型評估與調優技巧(如交叉驗證、超參數調整),應用於業務預測模型;使用 GridSearchCV 自動化調優,並解釋過擬合與正則化方法。
  • • 實操:建構一個推薦系統,例如基於歷史數據推薦產品或任務分配;整合協同過濾與內容基推薦演算法。
  • • 整合 Cursor AI 優化模型訓練流程,自動生成訓練腳本;討論 GPU 加速與模型保存/載入實務。

第四堂:整合 AI 輔助分析(3 小時)

內容重點:

  • • 介紹 Cursor AI 工具與 Python 整合,例如透過 Cursor 自動生成 Pandas 查詢代碼;討論 Cursor 的提示工程技巧以提升代碼生成準確度。
  • • 使用 Cursor 生成分析建議(如「從銷售數據中找出潛在問題」,例如偵測異常高退貨率),並自動化腳本,例如產生警報通知腳本;整合 email 通知模組如 smtplib。
  • • 實操:Cursor 輔助腦storm 數據洞察,例如預測趨勢(如庫存短缺預警)或優化流程(如自動分類客戶反饋),並生成視覺化建議;小組練習自訂提示以解決特定業務問題。
  • • 進階 AI 模型整合:使用 Scikit-learn 庫透過 Cursor 輔助建構複雜模型,例如線性回歸預測銷售額、隨機森林進行特徵重要性分析、分類器(如邏輯斯迴歸)辨識客戶流失風險、KNN 算法進行相似客戶分群;評估模型效能如準確率與混淆矩陣。

第五堂:實戰專案與應用優化(3 小時)

內容重點:

  • • 整合前四堂知識,完成端到端專案(如自動化 HR 報告或財務預測,例如建構員工離職風險模型或現金流預測儀表板);步驟包括需求分析、數據收集與模型部署。
  • • 錯誤排除、程式優化及跨工具整合(e.g., 與 Excel 互動,例如使用 openpyxl 直接更新試算表或整合 Google Sheets API);介紹效能剖析工具如 cProfile 與向量化運算優化。
  • • 討論職場應用:如何將技能應用於日常任務,例如自動化會議議程生成或供應鏈延遲分析;分享案例研究與 ROI 評估。
  • • 額外實踐:使用 Git 版本控制專案代碼,並模擬生產環境部署如 Streamlit 應用。

第六堂:數據探索與研究(3 小時)

內容重點:

  • • 探索性數據分析 (EDA) 基礎,使用 Pandas 和 Seaborn 進行描述性統計與分佈視覺化,例如直方圖與箱形圖分析數據變異;處理缺失值插補與離群值偵測。
  • • 相關性分析與特徵選擇,使用熱圖識別變數間關係,並應用互信息或卡方檢定篩選重要特徵;介紹 Pearson 與 Spearman 相關係數差異。
  • • 數據轉換與預處理技巧,如標準化、歸一化及處理不平衡數據,準備適合模型的資料集;涵蓋類別變數編碼如 One-Hot 與 Label Encoding。
  • • 實操:對辦公室數據集進行完整 EDA,生成研究報告並分享發現洞察;使用 Sweetviz 或 Pandas-Profiling 自動化 EDA 報告生成。

 

zh_HKChinese