6月5日下午,“统计大讲堂”第一百一十九讲——“青椒说”系列讲座第一期顺利举行。讲座以“Sequential Text Term Selection In Vector Space Models”为题,由统计学院助理教授王菲菲主讲。此次讲座为线上讲座,涉及热门的文本挖掘方向的数据研究,吸引了众多学生参与,为“青椒说”系列讲座取得良好的开端。统计学院老师、中心研究员李扬、李静萍、林存洁、杨翰方、白琰冰、高光远参加讲座。本次讲座由统计学院副教授孙怡帆主持。
孙怡帆介绍了主讲人王菲菲的相关信息。王菲菲是中国人民大学统计学院助理教授,北京大学光华管理学院统计学博士,研究上关注文本挖掘及其商业应用、大数据建模、空间统计学、社交网络分析等,在Journal of Econometrics、Journal of Business and Economic Statistics、Statistics in Medicine等期刊上均有发表。今天所做报告的主题也是她在JBS期刊发表的最新成果。
王菲菲首先介绍了课题背景。随着文本在互联网中的大范围增长以及深度学习和人工智能的发展,文本分析在实际生活的应用趋于成熟。此次研究即关注文本对连续性的应变量的解释,这种方法在电商平台、新闻自媒体、社交网络和互联网广告中都有广泛应用的前景。她利用“词”、“词组”和“词典”的概念阐述了文本的结构化。传统的文本结构化方法忽略了词与词之间的顺序关系,而这种缺陷可以用“词组”来弥补。她提到,虽然已经有许多涉及同类型变量筛选的优秀成果,但都没有在特定文本场合下提出,没有考虑到文本自身的特点。
王菲菲指出,此次研究的重点在于文本特点的变量选择方法:首先依据词组的长度将其划分成不同的子空间;然后在每一个子空间上进行变量选择,提取出可能相关的子集(consideration set);第三步,在一些既有的信息的基础上,提炼出最可能具有相关性的词来组成结果集(relevant set);最后运用数学模型和其他方法(向后剔除的精简方法、SIS等现成分析方法、筛选模型等)得出结论。她还介绍了团队如何通过模拟实验和真实实验的方法检验模型的准确性,并通过直观的统计图和“词云图”等方式展现了该研究在词语筛选和情感方法采集上的独到之处。
在提问环节中,在线师生纷纷参与,提出了“未经筛选的词语共线性较高,因此需要进行共线性检查”、“不同于过于体现情感的评论,研究新闻阅读量背后反映的深层原因”等具有拓展性的问题和建议,与王菲菲积极地交流互动。
此次讲座生动形象地体现了统计学的数据分析方法在非数据信息处理过程中的广泛运用。此后统计大讲堂——“青椒说”专题系列还将陆续推出多场讲座,敬请期待。