新闻 - 中国人民大学统计学院

新闻

您当前的位置：首页> 新闻

“统计大讲堂”第196讲回顾：用噪声对抗噪声：多候选工具变量的因果推断

时间：2022-07-19

6月29日下午，“统计大讲堂”系列讲座第196讲举行。本次讲座采取线上会议的方式，邀请多伦多大学统计学助理教授孔德含作题为“Fighting Noise with Noise: Causal Inference with Many Candidate Instruments”的报告。讲座由统计学院教授许王莉主持。

许王莉首先介绍了主讲人的相关信息。孔德含，多伦多大学统计学助理教授，现任美国统计学会会刊副主编。研究方向包括脑图像，函数型数据分析，因果推断，高维数据分析以及机器学习。

孔德含首先从生活中的超重这一普遍现象引入工作目标“超重是否会影响人的生活质量”，即用BMI衡量是否超重，研究BMI与生活质量之间的因果关系。但在这种情况下，会有一些混淆因素，如人的生活习惯，它会对BMI和生活质量造成不同影响。想要得到BMI与生活质量间的因果效应，就需要通过outcome等模型去校正这些混淆变量。而实际生活中，这些混淆因素往往不能都观测到，因此没有办法通过校正混淆因素的方式得到因果效应的估计。随即，孔德含介绍了Mendelian randomization(MR)方法来解决上述问题。若通过一个随机试验（如用人的基因型进行区分）得到的一串随机的BMI值，它们就不会被后天的混淆因素所影响。

接着，孔德含对因果推断的结构作了简单介绍。其中风险因素为X，结果为Y，从X到Y的红线为X到Y的因果效应，因果效应的真值为β，混淆因素为U，工具变量为Z。工具变量在混淆因素没有观测到的情况下使用，需满足三个条件，一是必须影响X，二是不能直接影响Y，三是与U之间不能存在相关性。这样，X到Y的因果效应就能写成一个比例，称为wald ratio，在有限样本的情况下，该比例的估计称为two stage least squares。

孔德含指出，自然实验并不完美。一是绝大多数基因型变量Z是无关的，如果想知道基因型与X相关，需使用GWAS分析。二是即使是相关的Z也可能无效。若一个基因的变种会影响多个特征，那么该基因可能是无效的。现存的方法分为三个步骤：第一步，通过GWAS找到与X相关的Zj；第二步，用mode- finding算法识别有效工具变量;最后一步，使用这些识别出来的有效工具变量进行因果效应估计。随后他举出一个模拟例子对上述三步加以运用，并分析了模拟中存在的问题及解决方法。

针对工具变量，孔德含介绍了用于分开无关和有效工具变量的两条理论。第一条，如果无关工具变量被选进来，那么它们的因果效应的估计就在一个含参区间内；第二条，对有效的工具变量，若概率趋于1，其因果效应的估计就集中于β*，即若d小于|C*|或U尽可能大或ω尽可能大，则伪变量与有效变量可以分开。

在演讲最后，孔德含对所述研究中使用的数据进行了说明与讨论，并作了简要总结。

在提问环节中，孔德含认真细致地解答了师生们的疑问，就本话题进行了更进一步的探讨。

此后“统计大讲堂”系列将陆续推出更多精彩讲座，敬请关注。