dlt-skill
建立、管理与调试 dlt (data load tool) 数据管道,将数据从 API、数据库及自定义来源导入 DuckDB、BigQuery 或 Snowflake 等目标。
简介
dlt-skill 是一个专为数据工程师和开发人员设计的综合助手,旨在协助实现稳健的数据摄取工作流程。它自动化了设置 dlt 数据管道的繁琐过程,确保数据能高效地从来源提取、规范化并加载至您选择的数据仓库或数据湖仓中。无论您是处理已验证的 SaaS 来源、标准 REST API,还是复杂的自定义 Python 逻辑,该技能都提供了必要的决策框架、配置模板和操作脚本,以简化开发生命周期。
-
通过针对 Salesforce、GitHub、Stripe 和 HubSpot 等已验证来源的引导式工作流程,简化 dlt 的初始化过程。
-
为标准 Web 服务实现声明式 REST API 管道,包括对认证、分页和 JSON 解析的支持。
-
使用 @dlt.source 和 @dlt.resource 装饰器开发自定义 Python 提取逻辑,满足特殊数据来源或独特转换需求。
-
针对 Google BigQuery、Snowflake 及本地 DuckDB 等热门平台配置目标特定的组态。
-
运用增量加载、写入配置(append、replace、merge)和模式演进的内置模式,优化数据加载流程。
-
通过 .dlt/secrets.toml 管理敏感凭证,并通过 .dlt/config.toml 管理一般设置,同时提供如 .gitignore 等安全最佳实践建议。
-
利用内置的 dlt 仪表板检查管道执行状态、模式与已加载记录,提升系统可观测性。
-
当遇到与数据摄取、管道维护、dlt init 指令或调试加载失败等相关任务时,请使用 dlt-skill。
-
善用提供的脚本库进行自动化依赖安装(支持 uv、pip、poetry 和 pipenv)以及启动仪表板。
-
输入通常包含 API 端点、数据库连接参数与目标数据库;输出则包含结构化的管道代码、配置文件与验证后的加载记录。
-
请注意,虽然已验证来源简化了设置,但自定义 Python 来源提供了无限的灵活性,但也需要手动维护提取逻辑与 API 错误处理。
-
确保所有机密信息皆正确管理于 .dlt/secrets.toml 中并排除于版本控制之外;在编写代码前,请依照提供的决策树来确定最佳的管道实现方式。
仓库统计
- Star 数
- 19
- Fork 数
- 0
- Open Issue 数
- 0
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月3日 20:52