生存分析方法最初为参数模型(Parametric Model),它可以估计出影响因素对风险率的影响及各时点的生存率,但对生存时间分布有一定的要求,但该类模型假设生存数据服从某个已知分布,使用参数分布方法进行生存分析,常用的参数模型有指数分布、Weibull分布、对数正态分布、对数Logistic分布、Gamma分布等。当没有很好的参数模型可以拟合时,则采用非参数方法进行生存分析,寿命表分析和Kalpan-Meier方法均为非参数模型。1972年,英国统计学家D. R. Cox提出了一个半参数模型(Cox回归模型)。相比而言,半参数方法比参数方法灵活,虽不能给出各时点的风险率,但对生存时间分布无要求,可估计出各研究因素对风险率的影响,比非参数方法更易于解释分析结果,于是得到了更为广泛的应用,也是目前比较流行的生存分析方法。
综上所述,按照使用参数与否,生存分析的方法可以分为以下3种:
1)非参数方法:当没有很好的参数模型可以拟合时,采用非参数方法进行生存分析。常用的非参数模型包括生命表分析和Kalpan-Meier方法。
2)参数方法:假设生存数据服从某个已知分布,使用参数分布方法进行生存分析。参数方法按照是否满足比例风险假定,分为比例风险模型、加速失效时间模型。
其中比例风险模型主要包括指数分布模型、Weibull分布模型、Gompertz模型、广义Weibull模型,4种模型均为参数模型,均使用最大似然法估计,比例风险模型需要满足比例风险假定,主要研究解释变量对风险函数的作用,模型中解释变量的系数表示某个解释变量增加一个单位,将导致风险函数平均增加百分之多少,不含解释变量的风险函数通常被称为基准风险。
加速失效时间模型主要包括对数正态回归分布模型、对数逻辑分布模型、Gamma分布模型。与比例风险模型不同的是,加速失效时间模型主要研究解释变量对平均生存时间(从关注事件未发生到发生平均经历的时间)的影响,模型中解释变量系数的含义是某个解释变量增加一个单位,能使平均生存时间增加百分之多少。所以针对同一数据文件,比例风险模型和加速失效时间模型中解释变量的系数通常相反。
注意
在一些研究中,指数分布模型、Weibull分布模型既是比例风险模型又是加速失效时间模型,但在Stata中,指数分布模型、Weibull分布模型默认为比例风险模型,相应命令产生的结果需要按照比例风险模型进行解读。
3)半参数方法:目前比较流行的生存分析方法,前面介绍的参数模型需要对风险函数的具体形式做出假设,再用最大似然法估计,但是截堵数据可能会导致风险函数设置错误, 导致出现不一致的MLE估计。Cox(1972, 1975)以比例风险模型为基础提出了半参数模型,相比而言,半参数方法比参数方法灵活,比非参数方法更易于解释分析结果。所以常用的半参数模型主要为Cox模型(也称Cox PH模型)。
Cox回归为时间事件数据建立预测模块,该模块生成生存函数,用于预测被观察事件在给定时间 t 内发生预测变量既定值的概率。与回归分析的基本思想一致,可以从既有样本观测值中估计出预测的生存函数与相应的回归系数,然后可以对新样本观测值进行预测。需要注意的是,已检查主体中的信息,即未在观察时间内经历被观察事件的信息,在模型估计中起到了重要的作用。Cox 回归的优点包括:可以估计生存函数,可以比较两组或多组生存分布函数,可以分析危险因素对生存时间的影响,可以建立生存时间与危险因素之间的关系模型,不需要事先知道生存时间的分布等。
一般情况下,生存分析的步骤是:
1)设置生存分析数据,即告诉Stata我们的数据文件为生存分析数据,探索数据文件的基本特征。
2)通过绘制生存函数、累积风险函数或风险函数进行非参数分析。
3)可以进行参数回归(含比例风险模型、加速失效时间模型)。
4)可以进行Cox 回归。
5)进行比例风险假定的检验,确定最终模型。