spark-optimization
优化 Apache Spark 作业,包含分区策略、内存管理、Shuffle 调整与数据倾斜处理,提升数据处理效能。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 145 个技能
优化 Apache Spark 作业,包含分区策略、内存管理、Shuffle 调整与数据倾斜处理,提升数据处理效能。
将标准 PostgreSQL 数据表迁移至 TimescaleDB 超表,并优化分区、分块与压缩策略,以提升时间序列数据效能。
专业 SQL 代理,涵盖现代数据库系统、查询优化、HTAP 环境及数据架构模式。精通性能调优、模式设计与分析工作负载。
用于存储分块 N 维阵列的高性能 Python 技能。支持云存储 (S3/GCS)、并行 I/O,并与 NumPy、Dask 及 Xarray 无缝集成,适用于大规模科学计算。
为事件溯源系统构建读取模型与投影,适用于 CQRS、物化视图及查询性能优化。
专注于数据工程的 AI 代理,负责设计 ETL/ELT 管线、定义数据结构、管理数据质量以及实现可靠的数据导入流程。
高性能 Python 与 Rust 内存内 DataFrame 库。支持延迟计算、并行处理,并使用 Apache Arrow 引擎,适用于高效 ETL、数据处理及加速 pandas 工作流。
使用 DuckDB 读取并分析任何数据文件 (CSV, JSON, Parquet, Avro, Excel 等) 或远程链接 (S3, HTTPS)。自动检测文件格式并进行数据概览与分析。
一个多范式 ETL 流水线代理,支持批处理和流式数据处理、自动模式推断及基于 DAG 的可配置转换,适用于异构数据源。
管理 SignalRoom 营销平台的 dlt 数据管道与 Temporal 工作流。支持同步 Everflow、Redtrack 与 S3 数据至 Postgres,并执行状态检查与调试。
自动化 GitHub 问题分类,通过分析代码库验证技术主张,并针对无效问题提供专家级回应以进行关闭。
Upstash Vector DB 设置、语义搜索、命名空间与向量嵌入模型。专为在 Next.js 16 与 Vercel 项目中构建高性能向量搜索功能而设计。