进入21世纪的十几年来,我在生物医学领域运用统计方法作了点滴,有了些许感悟。应该感谢张尧庭老师,是他将我推荐给了中医的人,2002年便开始参与中国中医科学院亚健康的中医调查。应该感谢陈希孺老师,是他作为中国人民大学的兼职教授,不顾劳累,应邀于2004年2月专门为我们讲授“广义线性模型”这门课程。
2003年初突如其来的SARS使得人们措手不及,中国中医科学院的研究者和大夫们冒着生命危险到临床采集了患者的数据,很想利用这些数据分析研究中医介入治疗的效果。我很荣幸加入了这个分析者的队伍,开始进入生物医学统计领域的研究。2003年加入SARS中医介入治疗的分析,对我是一个挑战,带领研究生们从数据整理入手,不厌其烦的一遍一遍核对、筛选,进行数据在不同数据库之间的转换;反复了解背景,探讨分析方法,尝试了几乎所有学过的方法,又从网上检索了最新的各种可能使用的统计分析方法;同时通过在美国读博士的学生,了解有关纵向数据处理的方法,阅读文献、了解软件使用,经过艰辛的努力,为中西医结合治疗SARS的疗效评价提供了有利的依据,从此进入中医药的定量研究领域。在纵向数据模型的学习和讨论过程中,我开始扩展了对时间序列分析的理解和认识,第一次知道了GEE( Generalized Estimating Equations)方法。原来Liang和Zeger在1986年就引入了GEE方法,用来处理相关性数据,这些数据如果没有响应变量之间的相关性,可以建立广义线性模型。而同一个体的重复测量会存在相关性,如糖尿病患者治疗过程中不同时间检测的糖化血红蛋白,中风病患者不同时间测量的NIHSS值等等,如果考虑不同药物或治疗方案是否有效,可以将不同个体随时间变化的数据整合分析探讨规律,并不要求所有观测者具有相同的时间点,观测的时间点至少有三个就可以构建模型,真是太奇妙了!
对某种疾病患者采用两种不同治疗方案,方案1和方案2,基线、1周、2周分别观测了患者的某指标,结果如图1和图2所示。图3是两组平均值结果。
图1 方案1患者指标测量值 图2 方案2患者指标测量值
图3 两种方案患者指标测量平均值
从图3看,可能在基线检验两组没有显著差异,结局也没有显著差异,但是将整个治疗过程结合考察,可以看出方案1似乎比方案2平均要下降得更多。图1和图2显示,方案2在治疗过程中似乎有更大的波动。临床治疗不仅要看治疗结果,还要看治疗过程,对于患者来说病情的稳定好转是适宜的,病情在大波动中变化并不舒服。纵向数据模型在分析中不仅关注了最后的结局,同时考虑了变化的过程,这种分析比单纯检验在某种情况下更适合用于疗效评价。
面对老年髋关节手术的大量数据,在上百个变量中寻找具有哪些特征的人更容易手术死亡,为临床大夫提供可借鉴的评价量表,无疑又是一个挑战。当我们运用机器学习方法从中筛选出十几个重要变量后,又结合项目反应理论、二阶因子模型进行条目筛选,为编制简洁的量表奠定基础。当我们从上百个变量选出10个变量并根据程度不同分别赋予分值时,那种愉悦的心情无法用言语表达!
中医与西医不同,其不是仅针对病,而是更关注人;中医药的治疗在于调理人体的阴阳平衡,经络通畅,气血运作,很多人都从切身感受到:西医西药治“标”,见效快而不治“本”;中医中药治“本”,见效慢却能“去根”。可能从单一结局指标看,中医的结果与西医没有显著差异,但是多结局指标综合是否会有显著差异?这使得我们不得不考虑中医介入治疗是否会使得患者有更好的综合疗效。如在临床治疗中风(脑卒中)的研究中,衡量脑卒中严重程度的日常测量量表有NIHSS得分、残疾情况mRS 得分、生存质量,还有国际公用的客观结局指标——死亡率,死亡时间,疾病复发时间等;癌症患者中医介入治疗是否可能延长中位生存、改善生活质量等。当评价指标(因变量)中同时存在纵向评价指标和时间资料时,就需要采用联合模型进行分析。联合分析通过构建纵向评价指标和时间资料的联合分布函数,在考虑两类指标之间相关关系的基础上,采用最大似然估计的方法对模型进行估计,既可以实现对两类评价指标的联合评价,也可以对指标之间相互关系的强度和方向进行衡量。
传统联合模型(joint models)的一般形式为
纵向数据部分:
时间数据部分:
纵向指标和事件发生时间指标的联合分析主要体现在两个方面:一是和具有一些相同的解释变量;二是和是对同一受试个体的随机效应的度量。
当我们用联合模型分析评价中风患者中医介入治疗后的效果时,发现确实在某种情况下,中医介入治疗效果不错。这再一次为我们深入研究中医疗效增强了信心。看来中医并不是不能进行量化分析,关键是从什么角度、用什么方法、有什么样的数据作支撑。联合模型不仅仅是纵向和生存的联合,还可以是纵向的联合,线性回归的联合等等,生物医学统计的发展,给我们解决实际问题,提供了多种多样的工具和手段;实际数据的丰富,也为我们进一步改进和发展原有方法提出了要求。在不断解决实际问题中,研究的能力在提升,研究的方法在改进,也让我们越来越体会到生物医学统计的美妙!
肝移植患者术后的精神健康相关生活质量(MCS)和心理社会哪些因素有关?若PHCS表示自我效能;PSSS表示社会支持;COPNING表示应对,COPNING-A表示回避,COPNING-AR表示屈服,COPNING-C表示面对;CAHS表示健康认知评价,CAHS-T表示威胁,CAHS-H表示伤害,CAHS-C表示挑战;能够从临床经验和护理理论上构建图4的结构关系,是否可以利用调查收集的数据估计模型?当我们根据结构方程模型的理论和方法,估计出这个结构关系时,我们对统计方法在生物医学领域的应用又有了进一步理解!
图4 心理因素、社会因素与精神健康生活质量关系图
拿到仪器监测的老年人动态心率、呼吸频率、血氧饱和度、体温等数据资料后,是否可以使用这些数据综合测定老年人的宗气?通过几种模型构建都没有很好的模型形式和结果,于是尝试采用如图5所示的二阶因子模型,构建宗气指数测度。
图5 二阶因子模型示意图
利用上午测得数据构建模型如图6。结果表明,心率与宗气的路径系数为0.8807,血氧与宗气的路径系数为-0.6177,体温与宗气的路径系数为0.5295,呼吸与宗气的路径系数为0.9062。从相关性角度看,心率和呼吸是与宗气最紧密的两大因素,这与中医关于宗气的界定不谋而合。
图6 宗气指数初始模型
借助二阶因子模型得到不同老年人的宗气得分,但是否可以分类?如何分类?考虑测量得到的心率、呼吸、血氧、体温都是随时间变化的数据,用均值(中位数)分析,会损失很多信息,这时,函数型数据分析方法给我们提供了另外一个思路。
函数型数据分析(Functional Data Analysis,FDA)由Jim Ramsay于1991年首次提出。其与传统统计分析方法的本质区别,在于将所观测的离散的点不看作一串数字,而是用曲线进行拟合,看作一个整体,基于此对数据进行分析。离散数据拟合的假设为,临近的两个离散点的潜在产生过程是光滑的。
获得的离散数据,转换成函数型数据,需要用到基函数的线性组合。基函数,是一系列独立的已知函数。将K个基函数进行线性组合可以得到拟合离散数据很好的近似函数曲线。常用的基函数有B样条基(非周期性数据)和傅里叶基(周期性数据)。傅里叶基函数曲线如图7所示,B样条基函数曲线如图8所示。
图7 傅里叶基函数曲线图
图8 B样条基函数曲线图
每一个基函数的系数不同,对第k个基函数曲线赋予权重再求和,即可用最小二乘法估计得到拟合曲线。基函数对于时间函数曲线的拟合,可以看作是连续函数曲线在K维基函数空间中的投影。函数型数据聚类通过对所拟合的光滑曲线进行一阶或更高阶求导,以进一步探索各条曲线之间相似度和动态变化规律,挖掘出曲线所蕴含的更多内在信息。
我们将测量的老年人某天13点到18点心率数据进行函数化处理,得到图9。图中细实线代表某老年人含某些缺失的观测值,粗实线代表对其进行函数曲线拟合的值。将所有观测者数据进行函数化后聚类,得到图10。图中实线是第一类,长虚线是第二类,短虚线是第三类。
图9 观测值与函数曲线拟合值
图10 心率曲线聚类
可以看出,在心率方面,第三类人的心率较快,且波动较大,在13点至14点之间出现了明显的峰值;第一类人和第二类人的心率均较为平稳,其中第二类人的心率相比于第一类人更慢。
在分析指标节点间多层次结构关系时,既需要考虑指标群内指标节点间的关系,又需要考虑指标群内外的指标节点间的关系;既要按照一定标准,把一个网络中的各个指标节点分成几个离散的子集,又不能使同一个指标群体内指标节点相距太远;既要实现对指标节点的划分,形成指标子群体,又要研究出不同指标群体之间的关系,实现指标子群体的凝聚,形成指标群体。这样就可以实现对复杂网络中指标节点间多层次结构关系的探讨。在临床用药的网络结构分析中,我们采用了块模型方法,把一个网络中的各个行动者按照一定标准分成几个离散的子集。根据整体网络密度、子网络(子结构)密度矩阵及关系矩阵,得到如图11的子结构关系图。图中展示出子结构间关系的两种情况:孤立状态和关系状态。如图中左侧的结构反映孤立状态,表明基于目前的数据信息,对应的药物组合不存在与其他子结构中药物的合并使用情况,或者可能性很小。
图11 临床用药网络结构图
晚期癌症患者中医介入治疗是否会延长中位生存?是否能提高生活质量?具有什么特征的人群通过治疗会有更好的结果?是否有目前方法治疗无效的人群?中医症状与基因结合是否可以找出人群特征?为了研究的需要,我们又进入了基因特征的探讨。
面对实际数据,一种种新方法被运用,一个个新问题被提出,一篇篇论文开始发表,……。人真的很奇妙,身体的、生理的、心理的各个方面都有数不尽的数据;大自然很奇妙,人与自然的和谐保护着人,人与自然的失衡毁灭着人,规律何在?用数据说话,让数据告诉我们规律!这就是生物医学统计的魅力!
大数据时代的来临,统计是否还有用?答案是肯定的:统计依然大有可为!我们正面临挑战,但我们不惧怕挑战,我们已经处理了一些复杂数据,我们还将继续努力,在健康医疗大数据面前作更多的研究,造福国民,造福人类!这是生物医学统计承担的责任和使命!
相信年轻的后来者,相信统计的同仁,会昂首挺胸更大踏步地前行!
中国人民大学统计学院
易丹辉
2017 年7 月18 日
献给中国人民大学建立80周年 中国人民大学统计学院建立65周年
中国人民大学公共卫生与预防医学(流行病与卫生统计)建立10周年