spark-optimization

簡介

Spark 優化技能為診斷、調整與擴展 Apache Spark 工作負載提供了全面的框架。該技能專為資料工程師與系統架構師設計，封裝了生產級的最佳實踐模式，以解決資料傾斜 (Data Skew)、過度 Shuffle、記憶體壓力與任務分配不均等常見效能瓶頸。它將原始的 Spark 配置與可執行的調優策略緊密結合，確保您的資料管道具有彈性且具備成本效益。

進階分區策略：實作分區大小調整，利用 coalesce 避免不必要的 Shuffle，並優化分區剪枝 (Partition Pruning) 以提高檢索效率。
記憶體管理與執行器調優：透過適當配置 Executor 記憶體、序列化 (Kryo) 與堆疊開銷 (Heap Overhead) 設定，減少垃圾回收 (GC) 壓力與磁碟溢出 (Spills)。
Shuffle 與 Join 優化：應用廣播連結 (Broadcast Join)、基於鹽值 (Salting) 的傾斜解決方案、桶連接 (Bucket Join) 以消除執行期 Shuffle，並啟用自適應查詢執行 (AQE) 配置。
效能診斷：分析 Spark 執行模型 (Driver、Job Stages、Tasks)，識別並解決網路 I/O、磁碟 I/O 與 CPU 密集操作中的瓶頸。
快取與持久化：策略性使用儲存等級 (MEMORY_AND_DISK, MEMORY_ONLY_SER) 與檢查點 (Checkpointing)，在複雜的多階段轉換中維持效能。

使用注意事項：

設定 SparkSession 時建議開啟自適應查詢執行 (例如 spark.sql.adaptive.enabled)，以便在執行期進行動態最佳化。
使用提供的輔助函式，根據資料量計算最佳分區數量 (每個分區目標大小為 128MB-256MB)。
務必優先減少寬轉換 (Wide Transformations)；若無法避免 Shuffle，請使用 Salting 或相關策略確保鍵值分佈均勻。
在開發生命週期早期監控執行器效能與任務持續時間指標，及早發現傾斜的鍵值。
此技能假設使用者熟悉 PySpark 以及常見的大數據儲存格式，如 Parquet、ORC 及雲端物件儲存模式。

創業課程

網上課程

實體課程

簡介

倉庫統計