新闻

新闻

您当前的位置: 新闻
“统计大讲堂”系列讲座Asymptotic Theory of Rerandomization in Treatment-Control Experiments成功举办
时间:2016-12-23

1216日晚,“统计大讲堂”系列讲座第三课在明主1030开讲,丁鹏博士为我们带来了试验设计中随机化领域的分享,为同学们打开一扇不同于传统试验设计的大门。丁鹏博士本科毕业于北京大学数学学院,并在哈佛大学获得博士学位;他曾师从于因果推断领域的专家Donald Rubin,毕业后在加州大学伯克利分校留职。

本次讲座由中国人民大学统计学院副院长尹建鑫老师主持。

丁鹏博士介绍到,因果推断分为两类:一类是观察性研究,一类是随机化试验。观察性研究又分为两部分:一部分是简单的抽样调查(如国民经济的预算),这部分只关心均值方差、分位数、相关性;另外一部分是狭义的观察性研究,是指从没有随机化的研究中进行因果推断。随机化研究是比较理想的状态,可以随机地分配到处理和对照组上,分配的机制是完全已知的、可以确定的。谈及进行随机化试验的原因,他指出,这首先是因为观察性研究的重要问题是混杂,相关关系完全可能是由于潜在的观察不到的z导致的;而对于随机化试验,则可以产生平衡的组,解决混杂的问题。其次是因为在不假定任何模型的条件下,随机化本身可以给我们一些检验方法和点估计、区间估计的方法。

但随机化本身并不是那么完美。如果完全随机化,虽然可以在平均意义上平衡协变量的分布,但是可能拿到的数达到的分布x是不平衡的。

Fisher很早就意识到这个问题,并且提出了随机区组实验(或分层试验)的建议。比如说协变量x有离散的5个值,在每个值里面做随机化试验,这样就强迫随机变量是平衡的。曾提出名言“All models are wrong but some are useful”的Box的试验设计书中有一句名言“Block what you can and randomize what you cannot”。

还有一种办法是可以定义平衡的准则,这样就变成优化问题,来找到最好的准则,即最优设计。但是这种方法通常依赖于模型,敏感地依赖准则。因此我们需要找一个中间状态,既要保持平衡,也要保持随机性。其解决方法是:抽一个z(由01构成,是唯一能改变treatment的一个向量),如果不平衡,重新抽一个z。此法最早由Fisher在拉丁方设计中于书信中提出,虽然想法非常简单,但很晚才有人证明。

然后丁鹏博士提到了如何分析随机化试验。在做假设检验时使用Sharp Null,并对虚拟Yi1)、Yi0)事实模拟这样比较近代的试验设计表示方式进行说明,原假设为Yi1=Yi0)。虽然说这种检验是精确的检验,且不需要任何假定,但其代价是假设检验是很强的Sharp Null。同样,在有了抽样分布以后,也可以构造区间估计。他随后又提到了协变量的定义,并在一系列的证明后,得到了非常漂亮方差近似分解式,对两项表达式的关系进行了说明。

最后,丁鹏博士总结到:随机化试验还可以在不同重要性的x使用不同选择标准、高维情况下的使用方法等领域进行深入研究。

报告结束后,丁鹏博士同在场同学进行了深入的问答交流。