新闻 - 中国人民大学统计学院

新闻

您当前的位置：首页> 新闻

“统计大讲堂”第194讲回顾：针对噪声数据的可信赖学习和推理

时间：2022-07-07

6月27日上午，“统计大讲堂”系列讲座第一百九十四讲举行。本次讲座采用线上会议的方式，邀请香港浸会大学Trustworthy Learning领域助理教授韩波作题为“Towards Trustworthy Learning and Reasoning under Noisy Data”的报告。本次讲座由中国人民大学统计学院讲师白琰冰主持。

白琰冰首先介绍了主讲人的相关信息。韩波，现任香港浸会大学计算机科学助理教授，可信机器学习与推理研究组主任，日本理研先进智能项目中心梅峰访问科学家。2019-2020年日本理研先进智能项目中心博士后，2015-2019年获悉尼科技大学计算机科学博士学位。在2018-2019年期间，他是理研先进智能项目的研究实习生，从事可信的表征学习。他还致力于因果表征学习。他与人合著了一部机器学习专著，即将发表在MIT出版社。他曾担任NeurIPS、ICML和ICLR的区域主席，AAAI、IJCAI和KDD的高级项目委员会，以及AISTATS、UAI和CLeaR的项目委员会。他还曾担任《机器学习研究汇刊》和《神经网络》的副主编，《机器学习期刊》的首席客座编辑，以及《机器学习研究期刊》的编委会审稿人。他获得了理研梅峰奖(2019)、香港研究资助局早期职业计划(2020)、微软亚洲研究院铸星计划(2021)和腾讯人工智能专项研究奖(2022)。

第一部分的内容集中于Noisy Label方向的相关研究。首先韩波介绍了什么是可信赖学习和推理以及为什么要做可信赖学习和推理。当前大部分研究集中在类条件噪音，本讲主要从优化与数据科学的视角看待噪音标注数据。韩波引入记忆效应的概念，即神经网络会先拟合简单、干净的数据，然后逐渐拟合有噪数据。在去除大损耗数据后进行神经网络训练思想的指导下得到的M-net模型会产生误差累积的现象，在此基础上改进得到Co-teaching、Co-teaching+、S2E、FS2E。在噪声转移矩阵的基础上提出了Masking、Fine-turning,在正则化基础上，为剔除大噪声数据的影响提出了SIGUA算法。在对决策边界数据赋予更小的权重的思想下提出Modelling IDN、SCM。

第二部分是Noisy Features方向下的研究。在经验鲁棒性方向下，为提升鲁棒性并保持准确性，给予决策边界数据更大的权重，由此提出GAIRAT。在此基础上，通过重新度量几何信息后提出PM度量模式。通过因果的视角，在对抗扰动存在的条件下，对对抗分布进行校准得到对抗分布校准算法，用于缩小自然分布与对抗分布的差异。

第三部分是Noisy Interaction方向下的研究。在对抗训练中，将少量标注进行随机翻转，生成有助于对抗训练的数据。噪声注入到内部最大化过程上，能提高了对抗训练的泛化性，但降低了其鲁棒性；噪声注入到外部最小化过程上能缓解鲁棒过拟合。

第四部分是Noisy Data相关的研究。例如在噪声域适应上，韩波老师的研究团队在分别负责原域和目标域的两支网络间借鉴了Co-teaching思路进行学习。

最后，韩波老师介绍了TMLR课题组的主要研究领域，并且分享了一些研究资源。在提问交流环节，在线师生积极参与讨论。韩波老师解释了决策边界数据权重的赋值原因，说明了CCN、IDN模型的区别与联系。

此后“统计大讲堂”系列将陆续推出更多精彩讲座，敬请关注。