【关键字】分析
生存分析概述及其应用实例
侯笛
摘 要 :本文对概括性地介绍了生存分析的概念和主要的研究内容。对生存分析中常用的术语进行了描述,包括生存数据,生存函数,风险函数等。并阐述了生存数据估计中常用的三种模型(非参数模型,参数模型,半参数模型。)的原理和方法。最后借助SPSS软件,用不同的生存分析模型对白鼠的治疗实验数据进行了统计处理,最后得出了影响白鼠生存时间的主要因素。
关键词:生存分析;SPSS;生存数据
生存分析是指将终点事件和出现此事件所经历的时间结合起来分析的一种统计分析方法,研究生存现象和现象的响应时间数据以及其规律,是处理以生存时间(survival time)为反应变量、含有删失数据一类资料的统计方法。此类资料的生存时间变量大多不服从正态分布,且常含有删失值,故不适于用保守的数据分析方法如t检验或线性回归进行分析。所谓删失值,就是因各种原因对随访对象的随访可能失访或终检。能处理删失数据也是生存分析的一个优点。作为统计科学的一个重要分支,生存分析的应用已经由最初的医学领域扩展到了社会科学、经济学等诸多领域。“事件”和“寿命”是生存分析研究中的两个重要变元。生存分析研究的主要内容包括以下两个方面:(1)描述生存过程;(2)分析生存过程的影响因素并对生存的结局加以预测。通常将生存分析所用到的数据称为生存数据,生存数据又分为完整数据和删失数据。生存分析中常用的分析方法很多,按照是否使用参数可以分为非参数方法,参数方法和半参数方法[1]。下面将从基本概念,生存分析方法,实例解析三方面作具体的介绍。
1.生存分析中的基本概念
1.1 事件和寿命
生存生存分析中定义的事件有死亡、损坏、失败、解雇、病发等等。例如病人的死亡,产品的失效,疾病的发生,职员被解雇。而寿命则是指试验或记录开始到事件发生所经历的时间。 1.2.生存数据
生存数据可以分为完全数据和删失数据。完全数据是指提供了完整信息的数据。例如,在研究产品的失效时间时,某个样品从进入研究直到失效都在我们的观察中,可以得到该样品的具体失效时间,这就是一个完全数据。删失数据则是指在观测期内,我们并没有看见个体的状态发生改变,无法确定个体具体的生存时间。又分为左删失数据,右删失数据,区间删失数据。生存分析中最常见的是右删失数据,是指试验个体在观测终止前(或者离开实验前)一直存活或工作,其失效或死亡发生在观测终止(或离开实验)之后。左删失数据是指我们知道某个体在某时刻前已经失效或死亡,但不知道具体的时间。区间删失数据是指个体在某个时间区间内死亡,但不能确定具体的死亡时间。 1.3生存函数和风险函数
1文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
生存分析中有两个重要的函数:生存函数和风险函数[2]。生存函数(survival function)又称为累积生存率,记作(St),是指个体生存时间超过t的概率。风险函数(hazard function)又称瞬时死亡率,记作h(t),是指在t时刻存活的个体,在t+∆ t 时刻死亡的概率。
用T表示个体生存时间,t表示观测时间,可以用下式描述两个函数:
S(t)=P(T>t) (1.1) (1.2)
2.生存分析方法分类
2.1非参数方法
非参数方法是生存分析中最常用的一种方法。当研究的事件不能被参数模型很好地拟合时,通常可以采用非参数方法研究它的生存特征。常用的非参数方法包括生命表分析和Kaplan-Meier分析。
生命表法可以用来描述群体的生存现象,适用于大样本的情况,它的主要优点在于对生存时间的分布没有限制。生命表分析将观测时间分成时间段,按时间段逐个统计事件发生的情况,以此估计生存函数。假设共有k个时间段 [ t 0 , t 1) , [ t 1 , t 2) , … , [ t k-1 , t k ) , 每个区间中事件发生的次数分别为 d 1 ,d 2 ,… , d k , 每个区间中的个体总数分别为 n 1 , n 2 ,… , n k ,所以在第 i 个区间个体存活的概率为(n i - d i )/ n i ,而个体可以从第一个区间存活到第 i 个区间的概率(累积生存率)为:
(2.1) 易知S(t)为递减函数。[3]
Kaplan-Meier分析,也称为乘积极限估计,是Kaplan和Meier二人在1958年提出的一种估计生存函数的非参数方法。与生命表分析不同,K-M分析以事件发生的时间点将观测区间分段,用来估计生存函数。 2.2参数方法
若已经证明某事件的发展可以用某个参数模型很好地拟合,就可以用参数方法做该事件的生存分析。常用的参数模型有指数分布模型、对数分布模型、正态分布模型,威泊分布模型,Gompertz分布模型等[2]。
指数分布是一种应用极广泛的单参数分布,它最大的特点是风险函数为常数,即:
h(t)= λ (2.2) Gompertz分布是Gompertz在1825年提出的,常用于刻画人的生存分布,其风险函数为:
h(t)=λexp(λt),t ≥0 (2.3) Gompertz分布能够比较好地拟合出生物出生、成长、衰老死亡的全过程,所以目前在
2文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
人口,保险精算,生物医疗等领域都得到了广泛应用。
威泊分布对应的风险函数为:
H(t) = λpt p-1,t ≥0 (2.4) 当p>1时,风险函数是时间的增函数;p=1时,风险函数是常数,威泊分布退化为指数分布;p<1时,风险函数是时间的减函数。 2.3半参数方法
生存分析中我们常常遇到个体的生存状况受到多种因素影响的情况。这些对生存时间有影响的变量称为协变量。在分析生存数据时要将协变量的影响考虑进去。Cox半参数模型就很好地解决了这个问题。它假定风险函数由两部分构成:基准风险函数和协变量线性组合的指数。Cox半参数模型又分为独立协变量比例风险模型和时间相依性协变量比例风险模型两种。二者的区别在于协变量的取值是否和时间有关。
Cox独立协变量比例风险模型可以写成如下形式[2]:
122))
(2.5) 式中,Z1,Z2,…Zm为协变量,这里的协变量与时间无关,β1,β2,…βm为对应协变量的未知参数。h 0(t)是基准风险函数,是当所有协变量的值为0时在t时刻风险函数的值。
实际应用中常常计算两个不同个体风险函数的比率,称为危险率。假定给定的两个个体的协变量观察值分别为(Z1,Z2,…Zm)和(Z1*’,Z2*,…Zm*),那么对应的危险率为:
(2.6)
因此危险率是与时间无关的常数,式(2.5)因此称为风险比例模型。
实际应用中协变量常常是随时间变化的,此时危险率不再是常数,协变量随时间变化的Cox模型称为时间相依性协变量比例风险模型。
3.实例分析
生存分析常用的软件有 SAS 和SPSS两种统计分析软件,本文采用SPSS进行统计分析。 两组小白鼠用来检验癌症的治疗状况。一组使用保守治疗方法,另一组使用试验方法,试验人员记录了小白鼠的存活时间及状态:Days为存活时间或观测时间(天);Status表示生存状态,取值1表示死亡,0表示存活;Group表示治疗方法,取0表示保守疗法,取1表示试验疗法,共有64组数据。
表3. 1 不同治疗方法下白鼠的存活时间
Days Status Group Days Status Group
3文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
144 1 0 196 0 164 1 0 198 1 188 1 0 204 0 188 1 0 205 1 190 1 0 208 0 192 1 0 220 0 206 1 0 240 1 209 1 0 242 1 210 0 0 242 1 214 1 0 244 1 216 0 0 244 1 216 1 0 244 1 220 1 0 244 1 220 1 0 249 1 227 1 0 254 0 227 1 0 261 1 240 1 0 266 0 244 0 0 266 0 244 0 0 269 1 244 0 0 280 1 244 1 0 280 1 246 1 0 284 0 246
1
0
296
1
4文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
256 265 265 266 304 344 404 156 164
0 1 1 1 1 1 1 1 1
0 0 0 0 0 0 0 1 1
296 330 340 344 348 142 414 142 424
1 0 1 0 0 1 0 1 1
1 1 1 1 1 1 1 1 1
对于一批生存数据, 在事先不知道寿命分布的总体趋势, 且又不好判断应该用何种模型 最合适时, 多数学者一般直接采用非参数方法或半参数法。但是, 由于非参数方法的精度一 般低于参数方法。常用的非参数法为生命表分析法和K-M方法,生命表方法对生存函数和生存率的估计依赖于生命表中所有的区间,应用假定是总体在每个区间内各处有近似相等的生存概率,乘积限方法是基于一个个数据的估计,而非生命表中按区间分组的数据,其假设为事件发生的概率仅依赖于时间[4]。本例中并不知道个体在各个区间的生存概率是否相等,依次用生命表法和K-M法进行分析。 3.1生命表法
图 3.1 生命表法得到的生存函数 图 3.1 生命表法得到的风险函数
观察生存函数的分布可以看出,大约在200天时两种治疗方法的生存函数相交,在200天以前传统治疗方法的存活率较高,而在200天以后试验方法的治疗效果明显优于传统治疗方法。
观察风险函数的分布,试验方法的风险函数基本分布在传统方法一下,风险较低。试验方法的分布趋势整体呈现较为稳定的低水平,而传统方法的风险则整体呈现增长趋势。
表3.2 检验结果
Wilcoxon (Gehan)
统计量
df
Sig.
5文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
表2的显说明两种治3.2 K-M分析
表3.3 K-M分析生存表
治疗方法
时间
状态
此时生存的累积比例 估计
1 2 3 4 5 6 7 8 9
0
10 11 12 13 14 15 16 17 18 19
144.000 164.000 188.000 188.000 190.000 192.000 206.000 209.000 210.000 214.000 216.000 216.000 220.000 220.000 227.000 227.000 240.000 244.000 244.000
1 1 1 1 1 1 1 1 0 1 1 0 1 1 1 1 1 1 0
.967 .933 . .867 .833 .800 .767 .733 . .698 .663 . . .590 . .516 .479 .442 .
标准误
.033 .046 . .062 .068 .073 .077 .081 . .084 .087 . . .092 . .094 .094 .094 .
1 2 3 4 5 6 7 8 8 9 10 10 11 12 13 14 15 16 16
29 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11
累积事件数
剩余个案数
2.920 1 .088 著性检验结果p值为0.088>0.05,疗方法并不存在显著性差异。
6文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
20 21 22 23 24 25 26 27 28 29 30 1
1
2
142.000
1
.941 生存表
治疗方法
时间
状态
此时生存的累积比例 估计
1
3 4 5 6 7 8 9 10
156.000 164.000 196.000 198.000 204.000 205.000 208.000 220.000
1 1 0 1 0 1 0 0
.912 .882 . .852 . .820 . .
标准误
.049 .055 . .061 . .067 . .
3 4 4 5 5 6 6 6
31 30 29 28 27 26 25 24
累积事件数
剩余个案数
.040
2
32
244.000 244.000 246.000 246.000 256.000 265.000 265.000 266.000 304.000 344.000 404.000 142.000
0 0 1 1 0 1 1 1 1 1 1 1
. . . .344 . . .229 .172 .115 .057 .000 .
. . . .095 . . .092 .085 .073 .055 .000 .
16 16 17 18 18 19 20 21 22 23 24 1
10 9 8 7 6 5 4 3 2 1 0 33
7文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
240.000 242.000 242.000 244.000 244.000 244.000 244.000 249.000 254.000 261.000 266.000 266.000 269.000 280.000 280.000 284.000 296.000 296.000 330.000 340.000 344.000 348.000 414.000 424.000
1 1 1 1 1 1 1 1 0 1 0 0 1 1 1 0 1 1 0 1 0 0 0 1
.786 . .718 . . . .581 .547 . .510 . . .468 . .383 . . .287 . .230 . . . .000
.072 . .080 . . . .090 .091 . .092 . . .093 . .094 . . .092 . .089 . . . .000
7 8 9 10 11 12 13 14 14 15 15 15 16 17 18 18 19 20 20 21 21 21 21 22
23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
8文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
K-M分析方法
与生命表数据,由够直观,分布,可试验疗法
0
30 34 64
24 22 46
6 12 18
20.0% 35.3% 28.1%
N
百分比
治疗方法
总数
表3.4个案处理摘要
事件数
删失
法相比记录了删失于生命表的结果不最好观察生存函数以较为清楚的看到与传统疗法的差异。
图 2.3 K-M分析累积
生存函数
1 整体
图 3.3 K-M分析累积风险函数
K-M分析的生存函数分布与生命表法的生存函数类似,200天左右是两种治疗方法生存率的分界线。但由于是按照事件的发生分段,区段较多,整体呈现密集
的锯齿,而生命表分析的分布则较为平缓。
观察累积风险函数的分布,发现传统治疗方法的累积风险率高于试验方法,这种趋势在观测后期更加明显。
表3.5不同检验方法的比较
Log Rank (Mantel-Cox) Breslow(Generalized Wilcoxon) Tarone-Ware
卡方 4.795
df
1
Sig. .029
2.967 1 .085
3.762 1 .052
由表3.5知,不同检验方法呈现不同的结果,其中Log Rank检验的p值小于0.05,该
9文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
检验表明两种治疗方法有显著性差异。
除了治疗方法对小白鼠的生存状况有影响,其他因素如性别,年龄,体重等都可能对其生存时间造成影响。考虑到这些协变量的影响,结合相关数据,用Cox独立协变量比例风险模型重新分析。其中年龄的单位是天,体重的单位是盎司,F代表雌性,M代表雄性。
Days 144 164 188 188 190 192 206 209 210 214 216 216 220 220 227 227 240 244 244
Status 1 1 1 1 1 1 1 1 0 1 0 1 1 1 1 1 1 0 0
Group 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Sex F M M F F M M F F M M M M F M F F F F
Age 94 50 57 81 89 71 69 81 99 52 69 67 51 78 58 79 92 98 79
Weight 10 10 11 11 10 11 11 12 13 12 12 13 13 12 12 13 13 13 12
10文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
244 244 246 246 256 265 265 266 304 344 404 156 164 196 198 204 205 208 220 240 242 242 244
0 1 1 1 0 1 1 1 1 1 1 1 1 0 1 0 1 0 0 1 1 1 1
0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1
M M F M F F M M M M F F M M M M F M F F M F F
68 59 88 73 83 79 66 59 67 69 86 97 72 61 60 62 81 54 78 77 55 94 89
13 13 13 13 12 12 12 13 13 13 12 11 10 10 11 11 10 12 12 13 13 13 13
11文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
244 244 244 249 254 261 266 266 269 280 280 284 296 296 330 340 344 348 142 414 142 424
1 1 1 1 0 1 0 0 1 1 1 0 1 1 0 1 0 0 1 0 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
M M F F F M M M F F M M F M F M F F M M M M
72 71 91 98 91 76 67 60 97 84 62 52 80 57 77 59 79 97 72 75 53 62
13 12 13 13 13 13 13 13 13 12 13 12 13 13 13 13 13 12 11 12 10 13
3.3 Cox独立协变量比例风险模型分析
在利用Cox独立协变量比例风险模型分析时要考虑到协变量的种类。本例中年龄和体
12文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
重为连续变量,而治疗方法和性别不是连续变量,我们称之为分类协变量。并以试验疗法和雄性作为参考变量,在计算两个不同个体的风险函数比率(危险率)时以它们作为参考。所得危险率即为雌性风险函数/雄性风险函数;传统疗法风险函数/试验疗法风险函数。统计结果如下:
表3.6模型系数的综合测试a -2 倍对数似然值 卡方 277.123 32.366 df 4 Sig. .000 卡方 28.135 df 4 Sig. .000 卡方 28.135 df 4 整体 (得分) 从上一步骤开始更改 从上一块开始更改 表3.6为模型系数的综合检验结果。可以看到p=0,小于0.05,说明这些因素中有些变量对白鼠的生存时间有显著影响。
给出了各个变量的单个模型系数检验结果,可以看到体重变量的p=0,说明体重对风险
表3.7方程中的变量 B SE Wald df Sig. Exp(B) 95.0% CI 用于 Exp(B) 下部 上部 3.204 2.532 1.039 .531 治疗方法 性别 年龄 体重 .561 -.163 -.005 -1.067 .308 .557 .022 .222 3.332 .086 .052 23.152 1 1 1 1 .068 .769 .820 .000 1.753 .849 .995 .344 .959 .285 .953 .223 函数有极显著影响。体重每增加1(盎司),风险大约为原来的1/3;治疗方法的p=0.068,影响几乎显著,传统方法的风险为试验方法的1.75倍;而性别和年龄对风险的影响微弱。
图3.5和3.6是Cox模型绘制的生存函数和风险函数。
图 3.4 Cox模型累积生存函数
13文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
图 3.5 Cox模型累积风险函数
结论:综合以上三种模型的分析结果,我认为在本实验中白鼠体重是影响其生存时间的重要因素,治疗方法的不同也有比较重要的影响,而年龄和性别几乎不对其生存时间产生影响。 参考文献:
[1]蔡梦. 生存分析
理论及其应用研究综述[J]. 价值工程,2016,10:19-21.
[2]李静萍.多元统计分析:原理与基于SPSS的应用.北京:中国人民大学出版社,2015.4 [3}李元章,何春雄.实用生存模型:不完全数据分析.广州:华南理工大学出版社,2015.9
[4]田欣媛,周镭. 基于生存分析法的顾客生命周期计量研究——以商业银行信用卡顾客为例[J]. 管理学报,2011,03:471-474.
此文档是由网络收集并进行重新排版整理.word可编辑版本!
14文档来源为:从网络收集整理.word版本可编辑.欢迎下载支持.
因篇幅问题不能全部显示,请点此查看更多更全内容