科学研究

学术观点

您当前的位置：首页> 科学研究> 学术观点

我院师生就“大数据背景下的抽样调查”发表四篇论文

时间：2022-03-18

近日，我院师生在《系统科学与数学》就“大数据背景下的抽样调查”发表四篇论文。

大数据时代背景下，统计学院调查技术研究团队以社会需求为导向，注重理论研究与实际应用的结合，在大型抽样调查方案设计及数据分析、统计调查质量评价、调查中的非抽样误差控制计量和处理、观测数据和非概率样本数据的推断问题、网络抽样方法研究、空间抽样方法研究等方面的科学研究一直处于国内领先水平。研究成果为解决经济社会发展重大问题提供了创新思路和方法支撑，为实现科学精准决策、有效治理提供了坚实的基础。

题目

大数据背景下的抽样调查

摘要

大数据具有体量大、种类丰富、增长速度快等特点，同时也存在价值密度低、代表性差等问题,为抽样调查带来了机遇与挑战。大数据背景下的抽样如何适应新的变化、具有怎样的发展和应用?文章从三个角度进行了讨论。一是在数据流环境下产生了一些适应性强的新型抽样方法，能够高效、准确地获得有代表性样本，并兼顾存储空间、处理的时间与能力；二是借助网络开展调查或进行社交网络数据的收集，发展出一些无抽样框的非概率抽样方法，能够以低廉的成本在短时间内获得大量分析样本；三是综合大数据与抽样调查的优势，进行线上、线下调查数据的融合，文章针对线上样本是非概率样本、线下样本是概率样本的情况，提出了融合的基本思路：一方面，通过概率样本对非概率样本进行概率性检验，另一方面，通过提取概率样本的信息，基于模型或基于伪随机化对总体进行推断。

作者介绍

金勇进，中国人民大学应用统计科学研究中心研究员，统计学院教授，博士生导师，研究领域为抽样调查。

刘晓宇，中国人民大学统计学院硕博连读在读博士生，主要研究方向为抽样调查。在统计学、经济学、数学等领域核心期刊发表8篇论文。

题目

问卷分割设计的成组序贯子问卷分配法

摘要

抽样调查在大数据时代仍是不可或缺的研究工具，然而，传统调查方式当前面临执行成本增加与数据质量降低的双重挑战。作为降低受访者负担的有效途径，问卷分割设计逐渐受到研究者重视。文章研究针对问卷分割设计中的子问卷分配过程展开讨论：在假设受访者招募，服从泊松过程前提下，以降低协变量的子样本间差异为目标设计成组序贯随机过程。理论和数值分析显示该过程相较现有随机化方法具有优良的表现，可以更好地平衡子样本间协变量差异并提高估计量的估计精度。

作者介绍

杨昊宇, 中国人民大学统计学院在读博士生，主要研究方向为试验设计方法、社交网络分析、因果效应推断。

秦祎辰，美国辛辛那提大学商学院副教授、博士生导师；主要从事网络数据、高维数据等复杂数据分析，模型不确定性评价与可视化，临床试验设计等领域研究；发表JASA、JMLR、Biometrics、Statistica Sinica等期刊论文二十余篇。

李扬（通讯作者），中国人民大学统计学院教授、博士生导师，副院长、统计咨询研究中心主任；国际统计学会推选会员、中国商业统计学会副会长、北京生物医学统计与数据管理研究会监事长；主要从事相关型数据分析、模型选择与不确定性评价、潜变量建模、临床试验设计等领域研究，承担国家自然科学基金面上项目、全国统计科学研究重大项目等科研项目二十余项，发表JASA、JAMA IM、Biometrics、Biostatistics、统计研究等期刊论文五十余篇。

题目

统一精度指标及与香农定理的联系

摘要

统计推断通常以置信度和误差两个指标衡量估计精度，但当置信度和误差其大小均不同时，估计量之间的精度比较将十分困难。文章提出了一个可广泛使用的无量纲精度指标，当估计误差不一，置信度也不一时，也能够进行精度比较。另从解释精度影响因素及其作用机制出发，发现了样本量确定公式与信息论之香农定理的逻辑一致性，并借此给出了关于样本量确定公式物理意义的一个新视角下的解释。

作者介绍

刘亚文,对外经济贸易大学统计学院副教授，研究领域为宏观经济、指数编制、抽样调查。

马文博,中国人民大学统计学院硕博连读在读博士生，主要研究方向为抽样设计、因果推断。

杜子芳，中国人民大学统计学院教授，博士生导师。生于1958年4月，籍贯山东文登，1982年1月获中国海洋大学物理海洋学学士学位，1988年7月获中国人民大学经济学硕士学位。研究方向为应用统计学，涉猎调查设计统计分析等多个领域，在《管理世界》《统计研究》等杂志发表二十余篇论文，著有《统计学概论》《统计学原理》《抽样理论及应用》《多元统计分析》等十几部著作，并曾完成包括社科重大、国家统计局重大等三十余项课题，其中受邀主持了国家统计局数据四性研究、一体化大数据研究和住户调查设计等项目。

题目

基于DCSBM模型的受访者驱动抽样调查估计量改进

摘要

大数据背景下，将受访者驱动抽样(RDS)用于网络抽样调查，解决了传统抽样调查难以获得可用抽样框、难以接触被调查者以及难以获得回答等问题,也使得网络调查可以实现概率抽样,得到一定误差范围内的总体参数估计。然而，在实际抽样过程中，同质性问题(即样本单元在推荐同伴时倾向于推荐那些与自己有相同属性的同伴)会导致RDS估计量的方差增大。为解决该问题，文章假定目标总体服从度修正随机块模型(DCSBM)，利用区块间的经验转移概率对样本进行区块的事后分层，提出了事后分层与逆概率加权相结合的PS-IPW估计量。通过模拟不同的同质性水平的目标总体社交网络和RDS抽样，比较PS-IPW估计量的相对效率；并通过实证分析，利用样本分块矩阵的谱性质选择分层变量，进一步验证RDS抽样的适用性以及PS-IPW估计量的有效性。

作者介绍

蒋妍，副教授，中国人民大学统计调查技术研究所所长；中国人民大学应用统计科学研究中心副主任；中国商业统计学会副秘书长。主要研究领域：抽样技术；非抽样误差；应用计量经济。主持国家统计局、国家外汇管理局、中华全国供销合作总社、海关总署、亚洲开发银行等科研项目20余项；在《经济研究》《管理世界》《Journal of Official Statistics》《Land Use Policy》《中国土地科学》等期刊发表论文40余篇。

孟珠峰,中国人民大学统计学院硕博连读在读博士生，研究领域为抽样调查、网络抽样。

王天佳,中国人民大学统计学院硕士毕业生，研究领域为抽样调查、政府统计。

刘晓宇，中国人民大学统计学院硕博连读在读博士生，主要研究方向为抽样调查。在统计学、经济学、数学等领域核心期刊发表8篇论文。