数据分析
loading-insurance-data avatar

loading-insurance-data

加载并预处理保险保单周度 CSV 数据,支持智能周期检测、多周数据加载、数据验证和清洗。

简介

loading-insurance-data 技能为保险保单周度数据集管理提供了一个稳健的流水线。该技能专为保险行业的分析师与自动化代理设计,旨在简化从原始 CSV 文件到已清洗、可分析的 pandas DataFrame 的转换过程。对于需要历史趋势分析、周度绩效跟踪及跨年度数据整合的工作流程,此技能是核心基础。

  • 智能周期检测:自动扫描目录并根据标准化文件名模式识别可用的周次编号。

  • 数据清洗与标准化:归一化关键字段(如保费金额、赔案件数及分类数据),同时处理缺失值与数据类型转换(例如强制数值类型、处理 utf-8-sig 编码)。

  • 质量保证:包含内置的验证检查,针对必要字段缺失、负值保费检测及空数据集进行把关。

  • 批量处理:支持灵活的周期范围设置以进行多周加载,便于进行时间序列分析与跨期比较。

  • 内存管理:实现了选择性字段加载与垃圾回收机制,在处理大量周度记录时有效优化内存占用,防止崩溃。

  • 输入:格式为 {YEAR}保单第{WEEK}周变动成本明细表.csv 的 CSV 文件;要求包含 policy_start_year, signed_premium_yuan 及 third_level_organization 等标准字段。

  • 输出:已清洗并结构化的 pandas DataFrame,按年度与周次分类,以便立即导入分析仪表板或 KPI 计算模块。

  • 先决条件:需依赖 pandas 与 pathlib 库进行本地文件系统遍历与数据操作。

  • 限制:主要针对周度 CSV 报告设计;处理超大型文件时效能可能会下降,建议使用内置的 usecols 优化功能。

  • 最佳实践:在执行任何保险分析任务前优先使用此技能,以确保跨多个时间切片的数据完整性与字段结构的一致性。

仓库统计

Star 数
0
Fork 数
0
Open Issue 数
0
主要语言
Python
默认分支
main
同步状态
空闲
最近同步时间
2026年5月3日 21:31
在 GitHub 查看