近日,我院师生在《系统科学与数学》就“大数据背景下的抽样调查”发表四篇论文。
大数据时代背景下,统计学院调查技术研究团队以社会需求为导向,注重理论研究与实际应用的结合,在大型抽样调查方案设计及数据分析、统计调查质量评价、调查中的非抽样误差控制计量和处理、观测数据和非概率样本数据的推断问题、网络抽样方法研究、空间抽样方法研究等方面的科学研究一直处于国内领先水平。研究成果为解决经济社会发展重大问题提供了创新思路和方法支撑,为实现科学精准决策、有效治理提供了坚实的基础。
题目
大数据背景下的抽样调查
摘要
大数据具有体量大、种类丰富、增长速度快等特点,同时也存在价值密度低、代表性差等问题,为抽样调查带来了机遇与挑战。大数据背景下的抽样如何适应新的变化、具有怎样的发展和应用?文章从三个角度进行了讨论。一是在数据流环境下产生了一些适应性强的新型抽样方法,能够高效、准确地获得有代表性样本,并兼顾存储空间、处理的时间与能力;二是借助网络开展调查或进行社交网络数据的收集,发展出一些无抽样框的非概率抽样方法,能够以低廉的成本在短时间内获得大量分析样本;三是综合大数据与抽样调查的优势,进行线上、线下调查数据的融合,文章针对线上样本是非概率样本、线下样本是概率样本的情况,提出了融合的基本思路:一方面,通过概率样本对非概率样本进行概率性检验,另一方面,通过提取概率样本的信息,基于模型或基于伪随机化对总体进行推断。
作者介绍
金勇进,中国人民大学应用统计科学研究中心研究员,统计学院教授,博士生导师,研究领域为抽样调查。
刘晓宇,中国人民大学统计学院硕博连读在读博士生,主要研究方向为抽样调查。在统计学、经济学、数学等领域核心期刊发表8篇论文。
题目
问卷分割设计的成组序贯子问卷分配法
摘要
抽样调查在大数据时代仍是不可或缺的研究工具,然而,传统调查方式当前面临执行成本增加与数据质量降低的双重挑战。作为降低受访者负担的有效途径,问卷分割设计逐渐受到研究者重视。文章研究针对问卷分割设计中的子问卷分配过程展开讨论:在假设受访者招募,服从泊松过程前提下,以降低协变量的子样本间差异为目标设计成组序贯随机过程。理论和数值分析显示该过程相较现有随机化方法具有优良的表现,可以更好地平衡子样本间协变量差异并提高估计量的估计精度。
作者介绍
杨昊宇, 中国人民大学统计学院在读博士生,主要研究方向为试验设计方法、社交网络分析、因果效应推断。
秦祎辰,美国辛辛那提大学商学院副教授、博士生导师;主要从事网络数据、高维数据等复杂数据分析,模型不确定性评价与可视化,临床试验设计等领域研究;发表JASA、JMLR、Biometrics、Statistica Sinica等期刊论文二十余篇。
李扬(通讯作者),中国人民大学统计学院教授、博士生导师,副院长、统计咨询研究中心主任;国际统计学会推选会员、中国商业统计学会副会长、北京生物医学统计与数据管理研究会监事长;主要从事相关型数据分析、模型选择与不确定性评价、潜变量建模、临床试验设计等领域研究,承担国家自然科学基金面上项目、全国统计科学研究重大项目等科研项目二十余项,发表JASA、JAMA IM、Biometrics、Biostatistics、统计研究等期刊论文五十余篇。
题目
统一精度指标及与香农定理的联系
摘要
统计推断通常以置信度和误差两个指标衡量估计精度,但当置信度和误差其大小均不同时,估计量之间的精度比较将十分困难。文章提出了一个可广泛使用的无量纲精度指标,当估计误差不一,置信度也不一时,也能够进行精度比较。另从解释精度影响因素及其作用机制出发,发现了样本量确定公式与信息论之香农定理的逻辑一致性,并借此给出了关于样本量确定公式物理意义的一个新视角下的解释。
作者介绍
刘亚文,对外经济贸易大学统计学院副教授,研究领域为宏观经济、指数编制、抽样调查。
马文博,中国人民大学统计学院硕博连读在读博士生,主要研究方向为抽样设计、因果推断。
杜子芳,中国人民大学统计学院教授,博士生导师。生于1958年4月,籍贯山东文登,1982年1月获中国海洋大学物理海洋学学士学位,1988年7月获中国人民大学经济学硕士学位。研究方向为应用统计学,涉猎调查设计统计分析等多个领域,在《管理世界》《统计研究》等杂志发表二十余篇论文,著有《统计学概论》《统计学原理》《抽样理论及应用》《多元统计分析》等十几部著作,并曾完成包括社科重大、国家统计局重大等三十余项课题,其中受邀主持了国家统计局数据四性研究、一体化大数据研究和住户调查设计等项目。
题目
基于DCSBM模型的受访者驱动抽样调查估计量改进
摘要
大数据背景下,将受访者驱动抽样(RDS)用于网络抽样调查,解决了传统抽样调查难以获得可用抽样框、难以接触被调查者以及难以获得回答等问题,也使得网络调查可以实现概率抽样,得到一定误差范围内的总体参数估计。然而,在实际抽样过程中,同质性问题(即样本单元在推荐同伴时倾向于推荐那些与自己有相同属性的同伴)会导致RDS估计量的方差增大。为解决该问题,文章假定目标总体服从度修正随机块模型(DCSBM),利用区块间的经验转移概率对样本进行区块的事后分层,提出了事后分层与逆概率加权相结合的PS-IPW估计量。通过模拟不同的同质性水平的目标总体社交网络和RDS抽样,比较PS-IPW估计量的相对效率;并通过实证分析,利用样本分块矩阵的谱性质选择分层变量,进一步验证RDS抽样的适用性以及PS-IPW估计量的有效性。
作者介绍
蒋妍,副教授,中国人民大学统计调查技术研究所所长;中国人民大学应用统计科学研究中心副主任;中国商业统计学会副秘书长。主要研究领域:抽样技术;非抽样误差;应用计量经济。主持国家统计局、国家外汇管理局、中华全国供销合作总社、海关总署、亚洲开发银行等科研项目20余项;在《经济研究》《管理世界》《Journal of Official Statistics》《Land Use Policy》《中国土地科学》等期刊发表论文40余篇。
孟珠峰,中国人民大学统计学院硕博连读在读博士生,研究领域为抽样调查、网络抽样。
王天佳,中国人民大学统计学院硕士毕业生,研究领域为抽样调查、政府统计。
刘晓宇,中国人民大学统计学院硕博连读在读博士生,主要研究方向为抽样调查。在统计学、经济学、数学等领域核心期刊发表8篇论文。