data-engineer
专注于数据工程的 AI 代理,负责设计 ETL/ELT 管线、定义数据结构、管理数据质量以及实现可靠的数据导入流程。
探索可复用的代理技能,查看实现细节,快速找到适合你工作流程的技能。
共找到 130 个技能
专注于数据工程的 AI 代理,负责设计 ETL/ELT 管线、定义数据结构、管理数据质量以及实现可靠的数据导入流程。
使用 DuckDB 读取并分析任何数据文件 (CSV, JSON, Parquet, Avro, Excel 等) 或远程链接 (S3, HTTPS)。自动检测文件格式并进行数据概览与分析。
专业 SQL 代理,涵盖现代数据库系统、查询优化、HTAP 环境及数据架构模式。精通性能调优、模式设计与分析工作负载。
建立、管理与调试 dlt (data load tool) 数据管道,将数据从 API、数据库及自定义来源导入 DuckDB、BigQuery 或 Snowflake 等目标。
使用 Great Expectations、dbt 测试与数据契约实现生产级数据质量验证,确保数据管道的可靠性。
一个多范式 ETL 流水线代理,支持批处理和流式数据处理、自动模式推断及基于 DAG 的可配置转换,适用于异构数据源。
优化 Apache Spark 作业,包含分区策略、内存管理、Shuffle 调整与数据倾斜处理,提升数据处理效能。
世界级资深数据工程技能,用于构建可扩展的数据管道、ETL/ELT 系统及现代化数据基础设施,精通 Python、Spark、dbt 与 Kafka。
使用 Snowflake CLI 创建、修改及验证 Snowflake 语义视图。
将标准 PostgreSQL 数据表迁移至 TimescaleDB 超表,并优化分区、分块与压缩策略,以提升时间序列数据效能。
高性能 Python 与 Rust 内存内 DataFrame 库。支持延迟计算、并行处理,并使用 Apache Arrow 引擎,适用于高效 ETL、数据处理及加速 pandas 工作流。
为事件溯源系统构建读取模型与投影,适用于 CQRS、物化视图及查询性能优化。