报告人:金明哲
日本同志社大学文化情报学部教授(博士生导师),专业方向:科学,语言/文本/文学作品的统计分析
时间:12月2日(星期五)下午4点
地点:明德主楼1030教室
报告题目:文本数据统计科学的现状与展望
概要:传统的统计科学主要面对的是结构化的数字型数据。可我们的周边积蓄的数据绝大多数数据是非结构化的文本数据。在现实生活中,许多领域都不断产生海量的文本数据。如何从这些数据中抽取和发掘有用的信息和知识已成为一个重要的问题。本次报告,介绍文本挖掘以及文本数据统计处理的基本概念,通过文本挖掘的现状阐明文本挖掘的核心与文本统计科学的关系,并提示出和解释文本数据统计科学的概念的同时基于文本统计分析的实例说明文本数据统计分析的意义和可用性,展望文本统计科学的为发展与应用前景。最后,介绍根据自己多年经验而开发的多语种文本数据统计分析软件MLTP+R(MultiLingual Text Processor and R)的框架,主要功能等。