pipeline
管理 SignalRoom 营销平台的 dlt 数据管道与 Temporal 工作流。支持同步 Everflow、Redtrack 与 S3 数据至 Postgres,并执行状态检查与调试。
简介
Pipeline 技能是管理 SignalRoom 营销数据平台中 ELT(提取、加载、转换)流程的完整工具组。它作为触发、监控与调试数据导入任务的主要接口,将 Everflow、Redtrack 与 S3 等营销来源的信息导入至 Supabase 管理的 PostgreSQL 数据库。通过使用 dlt 进行数据提取,并由 Temporal 提供持久化且容错的工作流编排,此技能确保了营销数据(如联盟营销转化、营收与广告支出)即使在网络或系统中断时也能可靠地处理。本工具专为需要维护管道完整性、管理调度与进行生产环境调试的数据工程师与系统运维人员设计。
-
使用 scripts/run_pipeline.py 在本地执行 dlt 管道以进行测试与调试。
-
通过 scripts/trigger_workflow.py 触发正式环境的 Temporal 工作流,支持同步等待与通知标志。
-
管理并审核自动化同步调度(如每小时一次的 Everflow 同步或每日 S3 批次处理)。
-
通过整合的日志系统、Temporal Cloud UI 链接与工作进程日志访问,提供系统状态的深入洞察。
-
在 SignalRoom 架构内配置与更新数据源注册表。
-
执行指令前请务必启动虚拟环境并确保 .env 文件中已正确配置必要凭证。
-
测试期间建议使用 --dry-run 标志,在不变更生产数据库的情况下预览管道行为。
-
若进行生产环境疑难排解,请确认 Supabase 连接设置(端口 6543),并通过 Temporal Cloud UI 检查工作流活动是否超时。
-
新增数据源时,必须在 src/signalroom/sources/ 目录中定义,并在 src/signalroom/pipelines/runner.py 注册后才能被识别。
-
输入要求包括已整合平台的有效 API 密钥,以及针对 S3、Everflow 与 Redtrack 连接正确配置的环境变量。
-
输出通常包含管道加载 ID、数据行计数以及受管理工作流的状态更新。
仓库统计
- Star 数
- 0
- Fork 数
- 0
- Open Issue 数
- 0
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月3日 06:05