12月8日下午,“统计大讲堂”第一百三十七讲——“青椒说”系列讲座第十期举行。本次讲座采取在线会议的方式,邀请中国人民大学统计学院数理统计系讲师王武作题为“Penalized local polynomial regression for spatial data”的报告,讲座由统计学院副教授孙怡帆主持。
孙怡帆首先介绍了报告人的相关信息。王武是中国人民大学数理统计系讲师,沙特阿拉伯阿卜杜拉国王科技大学博士后,复旦大学数理统计博士。他的主要研究方向是函数型数据分析、空间数据分析、机器学习和深度学习方法在能源、工业领域的应用等。成果发表于《Biometrics》《Scandinavian Journal of Statistics》等期刊。
王武首先介绍了课题研究背景。PM2.5作为主要空气污染物,其主要来源包括自然源、人为源和大气化学反应,对人体健康有极大的危害。课题借助二维地理信息观测数据建立空间变系数模型,改进地理加权回归方法(GWR)研究PM2.5与氮硫化物之间的关系。首先各驻点处通过构建局部多项式方法逼近参数值,利用驻点距离关系的权重将各驻点信息转化并表示为包含距离信息的线性模型。在上述基础上,利用最小二乘损失、Lasso、加权惩罚驻点距离差等方法挖掘空间信息,转化为对目标参数进行惩罚回归估计的问题。
在这一基础上,考虑相邻驻点对应系数之间的距离惩罚,在简化驻点为格点的条件下,各驻点距离差为常数。王武利用ADMM算法,将最小二乘损失和惩罚部分分离,简化迭代过程。为验证上述模型,将模拟分为两部分,一部分在给定模型无误差条件下,观测局部多项式逼近参数的误差;另一部分观测空间变系数模型误差。随后代入模拟和真实条件下对模型进行验证,在不同估计方法下比较RMSE的大小。估计误差和预测误差视角下WLC和WLL方法显著优于GWR和GWR(LL)方法,估计效率更高。基于上述估计方法,王武针对2015年1月、7月中国主要污染物观测数据,利用WLL方法观测二氧化氮、二氧化硫和一氧化氮等初级污染物与PM2.5之间的关系。结论表明,夏季污染水平显著低于冬季污染水平,且热点分布之间存在季节差异。
在提问交流环节,王武耐心解答了老师和同学们的提问,进一步解释了模型参数选取方法以及驻点选择和距离度量等。
本次讲座提出了一种针对空间数据的惩罚局部多项式的方法,该方法通过惩罚相邻驻点对应的系数,有效提高了各驻点之间的信息利用率,对比传统GWR方法显著提高了估计效率。此后“统计大讲堂”—— “青椒说”系列将陆续推出更多精彩讲座,敬请关注。