工程開發
dlt-skill avatar

dlt-skill

建立、管理與除錯 dlt (data load tool) 資料管線,將資料從 API、資料庫及自訂來源匯入 DuckDB、BigQuery 或 Snowflake 等目標。

簡介

dlt-skill 是一個為資料工程師與開發人員設計的綜合助理,旨在協助實作穩健的資料擷取工作流程。它自動化了設定 dlt 資料管線的繁瑣過程,確保資料能有效率地從來源提取、正規化並載入至您選擇的資料倉儲或資料湖倉儲。無論您是處理已驗證的 SaaS 來源、標準 REST API,或是複雜的自訂 Python 邏輯,此技能皆提供必要的決策框架、設定範本與運作指令碼,以簡化開發生命週期。

  • 透過針對 Salesforce、GitHub、Stripe 與 HubSpot 等已驗證來源的引導式工作流程,簡化 dlt 的初始化過程。

  • 為標準 Web 服務實作宣告式 REST API 管線,包含對認證、分頁與 JSON 解析的支援。

  • 使用 @dlt.source 與 @dlt.resource 裝飾器開發自訂 Python 提取邏輯,滿足特殊資料來源或獨特轉換需求。

  • 針對 Google BigQuery、Snowflake 及本地 DuckDB 等熱門平台設定目標特定的組態。

  • 運用增量載入、寫入配置(append、replace、merge)與綱要演進的內建模式,優化資料載入流程。

  • 透過 .dlt/secrets.toml 管理敏感憑證,並透過 .dlt/config.toml 管理一般設定,同時提供如 .gitignore 等安全最佳實踐建議。

  • 利用內建的 dlt 儀表板檢查管線執行狀況、綱要與已載入紀錄,提升系統可觀測性。

  • 當遇到與資料擷取、管線維護、dlt init 指令或除錯載入失敗等相關任務時,請使用 dlt-skill。

  • 善用提供的指令碼庫進行自動化依賴安裝(支援 uv、pip、poetry 與 pipenv)以及啟動儀表板。

  • 輸入通常包含 API 端點、資料庫連線參數與目標資料庫;輸出則包含結構化的管線程式碼、設定檔與驗證後的載入紀錄。

  • 請注意,雖然已驗證來源簡化了設定,但自訂 Python 來源提供了無限的靈活性,但需要手動維護提取邏輯與 API 錯誤處理。

  • 確保所有機密資訊皆正確管理於 .dlt/secrets.toml 中並排除於版本控制之外;在編寫程式碼前,請依照提供的決策樹來決定最佳的管線實作方式。

倉庫統計

Star 數
19
Fork 數
0
Open Issue 數
0
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月3日 下午08:52
在 GitHub 查看