spark-optimization
优化 Apache Spark 作业,包含分区策略、内存管理、Shuffle 调整与数据倾斜处理,提升数据处理效能。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 164 个技能
优化 Apache Spark 作业,包含分区策略、内存管理、Shuffle 调整与数据倾斜处理,提升数据处理效能。
高性能 Python 与 Rust 内存内 DataFrame 库。支持延迟计算、并行处理,并使用 Apache Arrow 引擎,适用于高效 ETL、数据处理及加速 pandas 工作流。
用于可靠、多目标事件传递的开源基础设施。将 Webhook 路由至 HTTP、SQS、RabbitMQ、Pub/Sub、EventBridge 或 Kafka,并提供内置重试与可观测性功能。
世界级资深数据工程技能,用于构建可扩展的数据管道、ETL/ELT 系统及现代化数据基础设施,精通 Python、Spark、dbt 与 Kafka。
一个多范式 ETL 流水线代理,支持批处理和流式数据处理、自动模式推断及基于 DAG 的可配置转换,适用于异构数据源。
为事件溯源系统构建读取模型与投影,适用于 CQRS、物化视图及查询性能优化。
为 pandas/polars/PySpark 生成数据清洗管道,处理缺失值、重复项、异常值、类型转换及数据验证。
专注于数据工程的 AI 代理,负责设计 ETL/ELT 管线、定义数据结构、管理数据质量以及实现可靠的数据导入流程。
使用 agentic-flow 编排多代理群体,支持并行任务执行、动态拓扑与智能协调。适用于构建分布式 AI 系统与扩展复杂的开发工作流程。
使用 Flow Nexus 平台在分布式 E2B 沙盒中训练与管理神经网络,支持 Transformer、LSTM 和 GAN 等自定义架构。
高性能文档智能库,可从 91 种以上文件格式中提取文本、表格、代码及元数据,支持 OCR 及 LLM 友好输出。
根据自然语言描述生成优化后的 SQL 查询。支持 BigQuery、PostgreSQL、MySQL 与 Snowflake 等多种数据库方言。分析数据库架构、解读业务需求,并输出包含详细说明的可执行查询。