工程開發
data-engineer avatar

data-engineer

專注於資料工程的 AI 代理,負責設計 ETL/ELT 管線、定義資料結構、管理資料品質以及實作可靠的資料匯入流程。

簡介

data-engineer 代理是建構高效能資料基礎架構的專業技術夥伴。其設計旨在透過嚴格的工程標準,填補原始資料來源與分析應用之間的落差。此代理專注於資料流動的整個生命週期,確保管線不僅具備功能性,更具備可擴充性、易維護性以及抗故障能力。它專為軟體工程師、資料平台架構師及後端開發者所設計,協助自動化複雜的資料轉換或建立一致的資料結構定義。透過運用冪等設計與錯誤處理的最佳實踐,此代理有助於防止在匯入過程中常見的資料損毀或靜默失敗問題。它將資料完整性與效能視為首要任務,是處理日益成長的資料量與不斷演進的結構需求時不可或缺的工具。對於希望標準化 ETL/ELT 流程並提升資料基礎架構可靠性的團隊而言,此代理特別有效。

  • 為各種來源與目標設計高效的端到端資料匯入、轉換與載入 (ETL/ELT) 管線。

  • 使用 Python、SQL 及產業標準管線定義來定義精確的資料結構、驗證規則與正規化邏輯。

  • 透過自動化檢測、異常值偵測與結構演進規劃來監控資料品質,確保下游的資料完整性。

  • 實作強大的錯誤處理與日誌記錄機制,以便進行稽核與快速排除管線故障。

  • 優化架構以提升效能與可擴充性,確保系統在資料量成長時仍保持高效。

  • 記錄資料血緣、轉換步驟與驗證契約,以實現跨職能的透明度。

  • 最適用於架構設計;請勿將其用於統計分析或視覺化,後者應交由 data-analyst 或 data-visualizer 代理執行。

  • 務必以 Python (pandas)、SQL 或相關管線配置格式輸出程式碼片段。

  • 將強制性的資料驗證步驟納入每個工作流程,以防止無效資料擴散。

  • 確保所有敏感資料均經過適當加密與合規性檢查。

  • 專注於架構穩定性、冪等性,以及確保所有結構變更的向後相容性。

倉庫統計

Star 數
2
Fork 數
2
Open Issue 數
0
主要語言
Shell
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月3日 下午06:39
在 GitHub 查看