spark-optimization
優化 Apache Spark 作業,包含分區策略、記憶體管理、Shuffle 調整與數據傾斜處理,提升數據處理效能。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 145 個技能
優化 Apache Spark 作業,包含分區策略、記憶體管理、Shuffle 調整與數據傾斜處理,提升數據處理效能。
將標準 PostgreSQL 資料表遷移至 TimescaleDB 超表,並優化分區、分塊與壓縮策略,以提升時間序列數據效能。
專業 SQL 代理,涵蓋現代資料庫系統、查詢優化、HTAP 環境及資料架構模式。精通效能調校、模式設計與分析工作負載。
用於儲存分塊 N 維陣列的高效能 Python 技能。支援雲端儲存 (S3/GCS)、平行 I/O,並與 NumPy、Dask 及 Xarray 無縫整合,適用於大規模科學運算。
為事件溯源系統構建讀取模型與投影,適用於 CQRS、物化視圖及查詢效能優化。
專注於資料工程的 AI 代理,負責設計 ETL/ELT 管線、定義資料結構、管理資料品質以及實作可靠的資料匯入流程。
高性能 Python 與 Rust 記憶體內 DataFrame 函式庫。支援延遲計算、平行處理,並使用 Apache Arrow 引擎,適用於高效 ETL、數據處理及加速 pandas 工作流。
使用 DuckDB 讀取並分析任何資料檔案 (CSV, JSON, Parquet, Avro, Excel 等) 或遠端連結 (S3, HTTPS)。自動偵測檔案格式並進行資料概覽與分析。
一個多範式 ETL 管線代理,支援批次與串流資料處理、自動結構推論以及可設定的 DAG 轉換,適用於異質資料來源。
管理 SignalRoom 行銷平台的 dlt 資料管線與 Temporal 工作流。支援同步 Everflow、Redtrack 與 S3 資料至 Postgres,並執行狀態檢查與除錯。
自動化 GitHub 問題分類,透過分析程式碼庫驗證技術主張,並針對無效問題提供專家級的回應以進行關閉。
Upstash Vector DB 設定、語意搜尋、命名空間與向量嵌入模型。專為在 Next.js 16 與 Vercel 專案中建構高效向量搜尋功能而設計。