loading-insurance-data

简介

loading-insurance-data 技能为保险保单周度数据集管理提供了一个稳健的流水线。该技能专为保险行业的分析师与自动化代理设计，旨在简化从原始 CSV 文件到已清洗、可分析的 pandas DataFrame 的转换过程。对于需要历史趋势分析、周度绩效跟踪及跨年度数据整合的工作流程，此技能是核心基础。

智能周期检测：自动扫描目录并根据标准化文件名模式识别可用的周次编号。
数据清洗与标准化：归一化关键字段（如保费金额、赔案件数及分类数据），同时处理缺失值与数据类型转换（例如强制数值类型、处理 utf-8-sig 编码）。
质量保证：包含内置的验证检查，针对必要字段缺失、负值保费检测及空数据集进行把关。
批量处理：支持灵活的周期范围设置以进行多周加载，便于进行时间序列分析与跨期比较。
内存管理：实现了选择性字段加载与垃圾回收机制，在处理大量周度记录时有效优化内存占用，防止崩溃。
输入：格式为 {YEAR}保单第{WEEK}周变动成本明细表.csv 的 CSV 文件；要求包含 policy_start_year, signed_premium_yuan 及 third_level_organization 等标准字段。
输出：已清洗并结构化的 pandas DataFrame，按年度与周次分类，以便立即导入分析仪表板或 KPI 计算模块。
先决条件：需依赖 pandas 与 pathlib 库进行本地文件系统遍历与数据操作。
限制：主要针对周度 CSV 报告设计；处理超大型文件时效能可能会下降，建议使用内置的 usecols 优化功能。
最佳实践：在执行任何保险分析任务前优先使用此技能，以确保跨多个时间切片的数据完整性与字段结构的一致性。

创业课程

在线课程

实体课程

loading-insurance-data

简介

仓库统计