loading-insurance-data
加载并预处理保险保单周度 CSV 数据,支持智能周期检测、多周数据加载、数据验证和清洗。
简介
loading-insurance-data 技能为保险保单周度数据集管理提供了一个稳健的流水线。该技能专为保险行业的分析师与自动化代理设计,旨在简化从原始 CSV 文件到已清洗、可分析的 pandas DataFrame 的转换过程。对于需要历史趋势分析、周度绩效跟踪及跨年度数据整合的工作流程,此技能是核心基础。
-
智能周期检测:自动扫描目录并根据标准化文件名模式识别可用的周次编号。
-
数据清洗与标准化:归一化关键字段(如保费金额、赔案件数及分类数据),同时处理缺失值与数据类型转换(例如强制数值类型、处理 utf-8-sig 编码)。
-
质量保证:包含内置的验证检查,针对必要字段缺失、负值保费检测及空数据集进行把关。
-
批量处理:支持灵活的周期范围设置以进行多周加载,便于进行时间序列分析与跨期比较。
-
内存管理:实现了选择性字段加载与垃圾回收机制,在处理大量周度记录时有效优化内存占用,防止崩溃。
-
输入:格式为 {YEAR}保单第{WEEK}周变动成本明细表.csv 的 CSV 文件;要求包含 policy_start_year, signed_premium_yuan 及 third_level_organization 等标准字段。
-
输出:已清洗并结构化的 pandas DataFrame,按年度与周次分类,以便立即导入分析仪表板或 KPI 计算模块。
-
先决条件:需依赖 pandas 与 pathlib 库进行本地文件系统遍历与数据操作。
-
限制:主要针对周度 CSV 报告设计;处理超大型文件时效能可能会下降,建议使用内置的 usecols 优化功能。
-
最佳实践:在执行任何保险分析任务前优先使用此技能,以确保跨多个时间切片的数据完整性与字段结构的一致性。
仓库统计
- Star 数
- 0
- Fork 数
- 0
- Open Issue 数
- 0
- 主要语言
- Python
- 默认分支
- main
- 同步状态
- 空闲
- 最近同步时间
- 2026年5月3日 21:31