大家谈统计

统计观点

您当前的位置：首页> 大家谈统计> 统计观点

孟生旺：车联网大数据分析与汽车保险定价

时间：2017-03-24

基于车联网数据可以提取出与风险相关的七类指标共156个因子，如车辆行驶里程，行驶区域面积，车辆使用时间，分段行程信息，行驶速度信息，道路类型信息，以及在不同时间段和道路类型上驾驶时间的分布等。

通过对上述指标进行描述性统计分析发现，行驶里程数是统计意义上与风险和损失相关最高的指标。行程里程数随着出险次数的增加而线性增加，这种正相关性表明，可以把行程里程数作为汽车保险的风险基础和定价基础，替代当前使用的车年数。行驶里程数表示行驶的距离,行驶区域则反映活动的范围。行驶区域面积和风险之间也是高度相关的，行驶区域面积增加时出险的频率也在增加，不同的出险次数对应的行驶区域面积直线上升。行驶时间与行驶距离相关，出险的次数越高，驾驶的时间越长。急加速和急减速的次数与车损险的出险次数有关。超速与出险频率有密切关系。道路类型对出险次数有一定影响。汽车的平均速度与风险的关系微乎其微。

从损失次数、损失金额的角度来分析签单保费与风险的相关性可以发现，签单保费不随损失次数的增加而改变，说明传统的定价结果与风险的关联度很低，签单保费与风险的匹配度很低。就损失金额而言，损失金额与上述重要风险因子之间的相关性都很低。

将基于车联网数据建立损失预测模型求得的预测保费与签单保费、经验损失金额数据进行对比，发现预测保费和经验损失之间的相关系数达到37%，而签单保费和经验损失之间的相关系数只有2%，表明签单保费不能准确反映风险的大小。基于模型的分析结果还可以发现，车联网指标对于传统的定价因子具有比较强的替代作用。

由于目前的数据中存在信息缺失、样本量较小的问题，出险频率模型有待进一步优化、提升。出险频率与损失金额影响因素不同。建立损失金额模型将面临更大挑战。如果在现有车联网数据的基础上，纳入天气和交通路况等信息，可以进一步提高汽车保险定价的准确性。