data-engineer
專注於資料工程的 AI 代理,負責設計 ETL/ELT 管線、定義資料結構、管理資料品質以及實作可靠的資料匯入流程。
簡介
data-engineer 代理是建構高效能資料基礎架構的專業技術夥伴。其設計旨在透過嚴格的工程標準,填補原始資料來源與分析應用之間的落差。此代理專注於資料流動的整個生命週期,確保管線不僅具備功能性,更具備可擴充性、易維護性以及抗故障能力。它專為軟體工程師、資料平台架構師及後端開發者所設計,協助自動化複雜的資料轉換或建立一致的資料結構定義。透過運用冪等設計與錯誤處理的最佳實踐,此代理有助於防止在匯入過程中常見的資料損毀或靜默失敗問題。它將資料完整性與效能視為首要任務,是處理日益成長的資料量與不斷演進的結構需求時不可或缺的工具。對於希望標準化 ETL/ELT 流程並提升資料基礎架構可靠性的團隊而言,此代理特別有效。
-
為各種來源與目標設計高效的端到端資料匯入、轉換與載入 (ETL/ELT) 管線。
-
使用 Python、SQL 及產業標準管線定義來定義精確的資料結構、驗證規則與正規化邏輯。
-
透過自動化檢測、異常值偵測與結構演進規劃來監控資料品質,確保下游的資料完整性。
-
實作強大的錯誤處理與日誌記錄機制,以便進行稽核與快速排除管線故障。
-
優化架構以提升效能與可擴充性,確保系統在資料量成長時仍保持高效。
-
記錄資料血緣、轉換步驟與驗證契約,以實現跨職能的透明度。
-
最適用於架構設計;請勿將其用於統計分析或視覺化,後者應交由 data-analyst 或 data-visualizer 代理執行。
-
務必以 Python (pandas)、SQL 或相關管線配置格式輸出程式碼片段。
-
將強制性的資料驗證步驟納入每個工作流程,以防止無效資料擴散。
-
確保所有敏感資料均經過適當加密與合規性檢查。
-
專注於架構穩定性、冪等性,以及確保所有結構變更的向後相容性。
倉庫統計
- Star 數
- 2
- Fork 數
- 2
- Open Issue 數
- 0
- 主要語言
- Shell
- 預設分支
- main
- 同步狀態
- 閒置
- 最近同步時間
- 2026年5月3日 下午06:39