資料分析
loading-insurance-data avatar

loading-insurance-data

載入並預處理保險保單週度 CSV 資料,支援自動化週期檢測、多週載入、資料驗證與清理。

簡介

loading-insurance-data 技能為保險保單週度數據集管理提供了一個穩健的流水線。此技能專為保險行業的資料分析師與自動化代理所設計,旨在簡化從原始 CSV 檔案到已清理、可分析的 pandas DataFrame 之轉換過程。對於需要歷史趨勢分析、週度績效追蹤及跨年度資料整合的工作流程而言,此技能不可或缺。

  • 智慧週期檢測:自動掃描目錄並根據標準化檔案命名模式識別可用的週次編號。

  • 資料清理與標準化:正規化關鍵欄位(如保費金額、賠案件數及類別資料),同時處理缺失值與資料型態轉換(例如強制數值型態、處理 utf-8-sig 編碼)。

  • 品質保證:包含內建的驗證檢查,針對必要欄位缺失、負值保費檢測及空資料集進行把關。

  • 批次處理:支援靈活的週期範圍設定以進行多週載入,便於進行時間序列分析與跨期比較。

  • 記憶體管理:實作了選擇性欄位載入與垃圾回收機制,以在處理大量週度記錄時避免記憶體溢位。

  • 輸入:格式為 {YEAR}保單第{WEEK}周變动成本明细表.csv 的 CSV 檔案;要求欄位包含 policy_start_year, signed_premium_yuan 及 third_level_organization 等標準欄位。

  • 輸出:已清理並結構化的 pandas DataFrame,按年度與週次分類,以便立即匯入分析儀表板或 KPI 計算模組。

  • 先決條件:需使用 pandas 與 pathlib 進行本地檔案系統遍歷與資料處理。

  • 限制:主要針對週度 CSV 報告設計;處理極大型檔案時效能可能會下降,建議使用內建的 usecols 優化功能。

  • 最佳實踐:在執行任何保險分析任務前優先使用此技能,以確保多個時間切片間的資料完整性與欄位結構的一致性。

倉庫統計

Star 數
0
Fork 數
0
Open Issue 數
0
主要語言
Python
預設分支
main
同步狀態
閒置
最近同步時間
2026年5月3日 下午09:31
在 GitHub 查看