11月2日,第四届中国北区统计与优化研讨会在明德主楼1030报告厅顺利举行。香港科技大学数学系教授荆炳义教授,北京大学光华管理学院嘉茂荣聘教授王汉生教授,澳门大学数学系刘志教授,南京审计大学统计科学与大数据研究院孔新兵教授,香港中文大学统计系林媛媛教授,香港大学统计及精算学系刘中华教授以及来自中国人民大学、上海财经大学、上海对外经贸大学、安徽财经大学、桂林理工大学、北京工商大学等高校的统计学者在本次会议上作了报告。中国人民大学统计学院孙怡帆副教授出席本次会议,本次会议开幕式由副院长李扬教授主持。
本次会议由荆炳义首先作报告。荆炳义教授现任香港科技大学数学系教授、统计科学中心主任。同时,他还是国际统计学会当选会员,泛华统计协会理事会主任,以及《Journal of Business & Economic Statistics》和《Canadian Journal of Statistics》等五家国际学术期刊的副主编,曾获2010年度教育部高等学校科学研究优秀成果奖(自然科学)二等奖以及2015年度国家自然科学奖二等奖。荆炳义教授在概率统计国际期刊发表了百余篇学术论文,并在 《The Annals of Statistics》、《The Annals of Probability》、《Journal of the American Statistical Association》等顶级期刊上发表了20余篇高水平学术论文,论文被引用次数超过2000次。本次会议上,他介绍了其目前正在进行的研究:community detection on multi-layer networks via tensor method,并向与会人员展示了将tensor运用于统计分析这一研究方向的广阔前景。
上午另有五位报告人作了报告:
孔新兵介绍了如何在没有矩约束的情况下进行large-dimensional factor anlaysis。Large-dimensional factor model因为其在数据降维和提取潜在特征等方面的作用,在大数据时代吸引了越来越多的关注。孔新兵教授在报告中提出了一种去掉矩约束条件进行large-dimensional factor anlaysis的新方法,突破了传统方法要求数据具有有限的四阶矩这一局限。
林媛媛展示了她在distributed case-control场合下对logistic regression的研究。在case-control的研究中,如果采用logistic regression,截距项和不同病例的比率往往是无法识别的。而林媛媛教授提出,在分布式case-control场合,只需要加入少许条件,即可证明对截距项和斜率的极大似然估计具有一致性和渐近正态性。
刘志讲解了如何通过JEL(Jackknife Empirical Likelihood)统计量去检验两个分布是否相同。他在研究检验两个分布是否相同的过程中,在复制核Hilbert空间时考虑最大均值差异准则,构造了JEL统计量,并证明了调整后的检验统计量的极限分布是自由度为1的卡方分布,以及这种检验方法适用于高维的场合。
刘中华介绍了他在将PCA(Principal Component Analysis)运用于genetic association方面的研究。PCA(Principal Component Analysis)是一种在无监督多维变量场合进行数据降维的常用方法,但是目前PCA在多变量回归分析中的特定用法缺乏理论上的保证。刘中华教授在multiple phenotype和SNP-set场合提出了关于PCA在genetic association中有效的理论依据。
中国人民大学统计学院师资博士后范新妍展示了如何对high-dimensional partial graphical models进行conditional score matching。在多变量分析中,网络构造方法被大量使用,但由于multiplicative normalization的存在,应用现有的构造方法会带来很高的计算成本。对此,范新妍博士提出了conditional score matching for high-dimensional partial graphical models的方法。
上午报告结束,与会人员进行短暂休息后,会议于13:00继续。
王汉生首先作报告。王汉生先后历任以下国际学术刊物副主编(Associate Editor):《The Annals of Statistics》(2008—2009),《Computational Statistics & Data Analysis》(2008—2012),《Statistics and its Interface》(2010—现在),《Journal of the American Statistical Association》(2011—现在),《Statistica Sinica》(2011—现在),《Journal of Business and Economics Statistics》(2012—现在),《Science China: Mathematics》(2013—现在)。他在报告中讲解了如何在分布式系统中进行Least Squares Approximation。他提出的这种方法可以解决分布式系统中的一系列回归问题,包括线性回归、logistic回归、Cox模型等。
下午另有七位报告人作了报告:
安徽财经大学统计与应用数学学院方国斌汇报的题目是:the FFBS estimation of high-dimensional panel data factor stochastic volatility models。目前已有许多文献介绍了随机波动模型在对金融市场研究中的应用,而方国斌等人提出了一种新的模型:面板数据因子随机波动模型,该模型可以同时考虑金融市场可观察因子与不可观察因子,他们进一步采用前向滤波倒向抽样方法对该模型进行估计,模拟和实证结果表明该模型具有较好的理论性质和应用效果。
上海财经大学统计与管理钟玉洁介绍了她的研究:Selection Models for Efficient Two-phase Design of Family Studies。家系研究可以探究疾病过程的家庭内部相关性和基因对它的影响,从而推断疾病的遗传性质。由于获取生物标志信息的成本很高,家系研究中常常需要采用有偏抽样的方式。钟玉洁助教授提出一种有偏二阶段抽样方法,利用第一阶段获得的信息,在第二阶段建立选择模型,并通过最优化目标函数来设计第二阶段的最优抽样方案,以期抽取能够提供更多疾病信息的家庭。
上海对外经贸大学统计与信息学院赵霞作了题为“Robust portfolio with multi-objective optimization model under high-dimensional scenarios”的报告。她基于方差及CvaR的估计方法和正则化方法,研究了高维场景下的多目标投资组合优化问题,在允许卖空的市场条件下,考虑外样本表现稳健性给出了相对较优的投资组合策略选择方法。
桂林理工大学理学院蒋远营作了题为“国际主要证券市场的波动风险溢出效应及其动态演绎”的报告。他从传统经济基础理论和金融风险传染猜想两个方面分析了股市波动风险的溢出效应。报告中提出的净脉冲响应函数对市场风险传染有很强的全局刻画能力并可推广至多个领域。
北京工商大学统计学系徐美萍作了题为“基于推广APT模型的资产动态配置研究——以上证A股为例”的报告。她从投资者关于市场的观点出发,用椭球分布替代正态分布作为资产收益和投资者观点分布推广了套利定价理论(APT)模型。报告采用5个系统风险因子,应用推广的APT模型在3种常用风险指标下对上证A股中分列于11个行业共828只股票的日收益率数据进行了动态建模并做资产配置分析。
中国人民大学统计学院博士研究生朱映秋的报告题目为“Kolmogorov-Smirnov K-means Method for Bank Card Transaction Data”,讨论基于大量银行卡交易数据对小微商户聚类问题。传统的基于商户特征的聚类方法会损失大量信息,而朱映秋创新性地针对商户交易数据的分布进行聚类分析,从而优化结果。
中国人民大学统计学院硕士研究生邓琼的报告题目为“Improved Spectral Clustering Method for Sparse Network”,讨论了稀疏网络社区检测问题。她提到由于稀疏网络中的Laplacian 是很不稳定的,所以谱聚类算法效果不好,因此重新定义了一个类权重矩阵,用该权重矩阵替换标准谱聚类中的邻接矩阵,从而改进了谱聚类算法。
本次研讨会展示了统计理论的前沿研究成果,以及数据分析和优化方法在生物、金融等多个领域的广泛应用,促进了专家学者间的交流讨论,进一步推动了统计方法的研究与发展。