大家谈统计

大家谈统计

您当前的位置: 大家谈统计
金勇进:统计学——令人心动的专业
时间:2017-10-26

已经有太多的材料介绍统计学,这里不妨换一种方式,以现实中一些有趣的故事为切入点,谈谈为什么统计学会令人心动。

过去的2016年发生的大事件无非是ALphaGo在古老的、变幻莫测的围棋比赛中击败世界冠军李世石和美国总统大选希拉里意外出局,这两件事情都与数据有关。

先说ALphaGo,2016年春季机器人ALphaGo与围棋世界冠军李世石在万众瞩目下展开了一场“人机大战”,结果ALphaGo以4:1取得胜利,并由此在一年内两次登上世界顶级学术刊物《Nature》封面。然而故事还没有完,ALphaGo升级版Master在2016年底悄然来到网络围棋平台,肆虐棋坛近一周,连胜一线的所有世界冠军,60名专业高段棋手后又悄然离去,留下一个被搅乱的围棋世界。从技术角度分析,机器人战胜人类,是因为计算机的强大计算能力,事先将大量人类最高水平的棋谱(数据)输入,利用“局面评估函数”,沿着一个繁茂的多枝杈大树,用机器学习的方法,搜索胜率最高的路径。当局面评估函数精确到一定程度,就可以带来搜索能力的巨大进步,数据开发者可以利用评估函数进行高效率剪枝,节省出来的计算能力可以用于更深的推导,产生出更多新的知识。这次Master在每步30秒的快棋中仅几秒钟就出手,并在顶级高手对决中取得60场连胜就是很好的说明。作为ALphaGo团队的核心人物,代表机器人出棋的黄士杰博士,毕业于台湾师范大学,其博士论文就是“应用电脑围棋的蒙特卡洛树搜索法的新启发式算法”,运用机器学习的方式,把复杂逻辑放到多达几百M的多层神经网络系数里,通过海量数据把这些系数训练出来。机器学习是统计学数据挖掘领域的重要知识内容。

再说美国总统大选希拉里意外出局。美国总统大选预测是有历史的,该预测是采用抽样调查的方法,在选民中抽取少量人为样本,根据样本调查结果对总体进行推断。被称为民意调查创始人乔治.盖洛普(George Gallup)是美国舆论统计学家,1935年创建美国民意调查研究所,开始正式进行各类全国性民意调查。在1936年美国大选中,另一个著名机构“文艺文摘”宣称根据他们对240万选民调查,共和党候选人兰登将会当选,而盖洛普公司基于对5万选民的调查,预测民主党候选人罗斯福将获胜。事实证明盖洛普公司预测正确,样本量5万比样本量240万预测还要准确,从此盖洛普公司名声大振,由此也催生和带动了美国的民意调查,市场调查业的发展,调查的技术方法不断成熟,这几十年来美国总统大选预测无一失手。这次调查机构普遍预测希拉里将会赢得大选,但选举结果却令人大跌眼镜,专家们进行总结和反思。其实,就最后个人选票看,希拉里是高于特朗普的,但美国的选举法则是,如果哪个州候选人票多,那个州的选票就全部属于该州获胜的候选者。这样,希拉里和特朗普的决斗胜负就取决于几个摇摆州,希拉里只要在其中一个州胜出就可获得最后顺利,但命运却偏偏眷顾特朗普。媒体说,投票结果公布后奥巴马政府情报部门进行调查,发现有国外因素涉入,俄国在投票前公布了一些破解的不利于希拉里的绝密文件,影响了最后投票的走势。特朗普也承认“黑客门”的信息对自己有利,但反驳说外部势力没有、也不可能改动选票。除了这个因素外,分析还认为,有人查阅了网站竞选预测指针的源代码,发现其变化并非来自实时数据,而是呈现随机摇摆,并由此进行推测样本点的分布不够均匀。调查中的缺失数据和失真数据是一个重要原因,许多特朗普的支持者在调查中保持沉默,或者说了假话,对统计推断产生误导。上述分析表明,预测失败不是因为抽样技术和统计推断不科学,反而恰恰是偏离了正确的抽样,推断中没有顾及到关键的影响变量。

上面说到的两个故事是统计学在数据挖掘和抽样调查领域的应用,但统计学的应用领域绝不仅仅是这些。

诺贝尔经济学奖设立于1969年,是瑞典国家银行为庆祝建行300周年,以诺贝尔的名义设立的。近几十年来,诺贝尔经济学奖见证了经济学研究所取得的成果,也反映了数学和统计学对于经济学发展所起的重要作用。从数据出发,运用统计学方法建立经济学模型,研究经济现象,阐明经济学理论,是经济学进行研究的重要方法,因为经济学离不开数据,进行数据分析就需要统计学方法。据统计,在诺贝尔经济学获奖者中,具有数学和统计学博士学位的占到六分之一,另外一些人,虽然其博士学位不是数学或统计学,但数学和统计学知识很强和较强的合计占到近80%,这是一个很高的比例。第一届诺贝尔经济学奖获奖者就是两位统计学家,一个是Ragnar Frisch(1985-1972),是奥斯陆大学教授,1926年在奥斯陆大学获统计学博士学位;另一位是Jan Tinbergen(1903-1994),是荷兰中央统计局的统计学家,其代表作为“经济周期理论的统计检验”。

统计学在质量管理中扮演着重要的角色,早期的产品质量控制图就是基于正态分布的假设检验理论。上世纪60年代兴起的全面质量管理和“田口方法”则广泛应用了实验设计,方差分析等多种统计学方法。上世纪80年代兴起的6西格玛管理是全面质量管理的继承和发展,它是以数据为基础,追求几乎完美(零缺陷)的质量管理方法,其合格率要求达到99.99966%,也即缺陷率小于百万分之3.4。6西格玛管理是市场竞争的产物,发源于上世纪80年代的美国摩托罗拉公司。当时,摩托罗拉公司在与日本公司的竞争中屡战屡败,先是失去了收音机和电视机市场,随后又失去了BP机和半导体市场。残酷的竞争现实使摩托罗拉高层决心脱胎换骨,在全公司开展了以“零缺陷”为奋斗目标的质量改进运动,逐步形成一套基于统计学方法以提高产品质量的系统化方案,即6西格玛管理方法,使摩托罗拉从一个濒于倒闭的公司发展成为世界知名,质量与利润都领先的公司。

在统计学的应用领域中,文学著作的统计分析是一个有趣的话题,就是用统计分析方法鉴别文学作品的真实作者。一个案例是关于莎士比亚新诗的鉴定,1985年11月14日,学者G.Taylor在保存莎士比亚著作的图书馆中发现写在纸片上无年代、无作者、仅有9节429字从未见过的新诗,他们对此诗展开分析,分析方法是比较莎士比亚著作中不同单词使用的频数分布,以及新发现的无名诗不同单词的频数分布,应用统计方法中非参数经验贝叶斯估计和泊松回归的显著性检验方法,得出该诗风格与莎士比亚其他著作用词风格完全一致,这首无名诗确为莎士比亚所作,并把研究成果发表在学术刊物Biometrika上,著名统计学家Rao在他的名著“统计与真理”一书中把这个研究成果誉为“一曲统计学的赞歌”。另一个经典案例是“静静的顿河”的作者之争。“静静的顿河”是描写前苏联十月革命前后动荡岁月中,人民和个人跌宕起伏的命运,以及多姿多彩生活的史诗性鸿篇巨著,作者是肖洛霍夫。但此书的著作权一直存在争议,许多人认为该书剽窃了作家克鲁乌科夫的手稿,克鲁乌科夫的家属也曾多次提出抗议,就连斯大林女儿阿利卢耶娃也说,肖洛霍夫是从一个死去的白军军官那里窃取了手稿,然后变成自己的书。在这个背景下,挪威奥斯陆大学的Geir Kjetsaa教授带领一个团队应用统计学方法对该书的著作权问题进行了分析,他们把研究对象分成三组,一个是“静静的顿河”,一个是肖洛霍夫没有争议的著作,一个是克鲁乌科夫没有争议的著作。对上述三组著作,设置多个语言参数,如不同词汇总量、不同词汇量所占百分比,最常见词汇在著作中出现的频数和频率,不同词汇的分布等。通过复杂的计算,语言参数表明,“静静的顿河”的语言风格与肖洛霍夫没有争议著作的语言风格十分相似,而与克鲁乌科夫没有争议的著作的语言风格存在显著性差别。他们从统计学角度提供了“静静的顿河”为肖洛霍夫所著的有力证明,这个研究成果写成一本专著“关于静静的顿河的作者”于1984年出版。事后的1987年和1991年陆续找到作者该书的部分草稿从实物角度印证了分析的正确。

前面关于统计学应用的故事也仅仅是沧海一粟,统计学是一门关于数据的科学,是研究如何搜集数据、分析数据、并由数据得出结论的一整套系统的理论与方法。随机性和规律性是统计学体系中的主线,并由此引申出许多不同领域中统计方法的讨论。随机性是指不能够预测某一特定事件的结果,规律性是指我们从许多事件中搜集数据、分析数据后发现的模式。规律性本身包含随机性,是通过随机现象表现出来的,统计学就是通过随机性寻找其中的规律性,并根据随机性和规律性之间的差异进行统计判断。因此,从哲学思想认识论的角度看,统计学基本上属于归纳思维,是由具体到一般,也就是对反映随机性质的具体事件分析上升到对事物规律性质的一般性认识。

正因为统计学是一门关于数据的科学,在历史迈入大数据时代后,统计学承载了更多的历史责任。“数据科学家”一词,几年前人们还有些陌生,但现在已是脍炙人口。一个专业的成长与发展,是与时代的发展息息相关的,生产力越发展,生产力中蕴含的科技含量越高,对数据科学家的需求就越大。在美国硅谷,刚入行的数据科学家的平均薪酬达到年收入11万到12万美元,从国内行业平均薪酬看,从事计算机和数据分析的职位工资也排在行业前端。2014年刊登在Glassdoor上的一份调查报告显示,被评出的使工作和生活平衡(work-life balance)的最佳岗位是数据科学家,美国国家劳工统计局数据显示,在美国,数据分析师是成长排名第二的职业(第一位是护士),劳工统计局最新就业报告预计,到2018年将有80万人加入数据分析行业(增幅为53.4%),数据分析将成为一个诺大的就业市场。

统计学技术应用领域广泛,统计学思想浅明又深奥,学习统计学知识既生动有趣,又富有挑战性,统计学就业前景一片光明。这些,的确都是令人心动的地方,但这些都还不足以说明这是最好的专业。什么是最好的?适合你自己的才是最好的。选择统计学专业,首先要对数据分析有无穷无尽的兴趣,能在学习过程中快速培养对数字的敏感;同时要有较好的数学基础和运用计算机能力;数据分析有时也会枯燥,所以也要具备耐得住寂寞,永不言败、勇往直前的奋发精神。

中国人民大学统计学科人才济济,这里有全国最知名的统计学专家和朝气蓬勃的研究梯队,有全国最优秀的学生,有良好的学习氛围。在2012年全国一级学科评估中,中国人民大学统计学科被评为全国第一名。如果你有志于统计学,并认为该专业是适合你的,中国人民大学就是你最好的选择,这里将会是你迸发青春,展示才华的最好舞台!

中国人民大学统计学院期待你的到来!