工程開發
pipeline avatar

pipeline

管理 SignalRoom 行銷平台的 dlt 資料管線與 Temporal 工作流。支援同步 Everflow、Redtrack 與 S3 資料至 Postgres,並執行狀態檢查與除錯。

簡介

Pipeline 技能是管理 SignalRoom 行銷資料平台中 ELT(擷取、載入、轉換)流程的完整工具組。它作為觸發、監控與除錯資料匯入任務的主要介面,將 Everflow、Redtrack 與 S3 等行銷來源的資訊匯入至 Supabase 管理的 PostgreSQL 資料庫。透過使用 dlt 進行資料萃取,並由 Temporal 提供持久化且容錯的工作流編排,此技能確保了行銷資料(如聯盟行銷轉換、營收與廣告支出)即使在網路或系統中斷時也能可靠地處理。本工具專為需要維護管線完整性、管理排程與進行生產環境除錯的資料工程師與系統維運人員設計。

  • 使用 scripts/run_pipeline.py 在本地執行 dlt 管線以進行測試與除錯。

  • 透過 scripts/trigger_workflow.py 觸發正式環境的 Temporal 工作流,支援同步等待與通知旗標。

  • 管理並審核自動化同步排程(如每小時一次的 Everflow 同步或每日 S3 批次處理)。

  • 透過整合的日誌系統、Temporal Cloud UI 連結與工作人員日誌存取,提供系統狀態的深入洞察。

  • 在 SignalRoom 架構內設定與更新資料來源註冊表。

  • 執行指令前請務必啟動虛擬環境並確保 .env 檔案中已正確配置必要憑證。

  • 測試期間建議使用 --dry-run 旗標,在不變更生產資料庫的情況下預覽管線行為。

  • 若進行生產環境疑難排解,請確認 Supabase 連線設定(連接埠 6543),並透過 Temporal Cloud UI 檢查工作流活動是否超時。

  • 新增資料來源時,必須在 src/signalroom/sources/ 目錄中定義,並在 src/signalroom/pipelines/runner.py 註冊後才能被識別。

  • 輸入要求包括已整合平台的有效 API 金鑰,以及針對 S3、Everflow 與 Redtrack 連線正確配置的環境變數。

  • 輸出通常包含管線載入 ID、資料列計數以及受管理工作流的狀態更新。

倉庫統計

Star 數
0
Fork 數
0
Open Issue 數
0
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月3日 上午06:05
在 GitHub 查看