spark-optimization
優化 Apache Spark 作業,包含分區策略、記憶體管理、Shuffle 調整與數據傾斜處理,提升數據處理效能。
探索可重用的代理技能,查看實作細節,快速找到適合你工作流程的技能。
共找到 164 個技能
優化 Apache Spark 作業,包含分區策略、記憶體管理、Shuffle 調整與數據傾斜處理,提升數據處理效能。
高性能 Python 與 Rust 記憶體內 DataFrame 函式庫。支援延遲計算、平行處理,並使用 Apache Arrow 引擎,適用於高效 ETL、數據處理及加速 pandas 工作流。
用於可靠、多目標事件傳遞的開源基礎設施。將 Webhook 路由至 HTTP、SQS、RabbitMQ、Pub/Sub、EventBridge 或 Kafka,並提供內建重試與可觀測性功能。
世界級資深資料工程技能,用於構建可擴展的資料管道、ETL/ELT 系統及現代化資料基礎架構,精通 Python、Spark、dbt 與 Kafka。
一個多範式 ETL 管線代理,支援批次與串流資料處理、自動結構推論以及可設定的 DAG 轉換,適用於異質資料來源。
為事件溯源系統構建讀取模型與投影,適用於 CQRS、物化視圖及查詢效能優化。
為 pandas/polars/PySpark 生成數據清洗管道,處理缺失值、重複項、異常值、類型轉換及數據驗證。
專注於資料工程的 AI 代理,負責設計 ETL/ELT 管線、定義資料結構、管理資料品質以及實作可靠的資料匯入流程。
使用 agentic-flow 編排多代理群體,支援平行任務執行、動態拓撲與智慧協調。適用於構建分散式 AI 系統與擴展複雜的開發工作流程。
使用 Flow Nexus 平台在分佈式 E2B 沙盒中訓練與管理神經網路,支援 Transformer、LSTM 和 GAN 等自定義架構。
高效能文件智慧程式庫,可從 91 種以上檔案格式中提取文字、表格、程式碼與後設資料,並支援 OCR 與 LLM 格式輸出。
根據自然語言描述生成優化後的 SQL 查詢。支援 BigQuery、PostgreSQL、MySQL 與 Snowflake 等多種資料庫方言。分析資料庫架構、解讀業務需求,並輸出包含詳細說明的可執行查詢。