lung
数据中提供了观察时间和事件指示
-
时间:以天为单位的生存时间(YiYi)
-
状态:審查状态1 =审查2 =死亡(δiδi)
数据通常带有开始日期和结束日期,而不是预先计算的生存时间第一步是确保将这些格式设置为R中的日期。
让我们创建一个小的示例数据集其中sx_date
包含手术日期和last_fup_date
上次随访日期的变量。
我们看到它们都是字符变量通常都是这种情况,但是我們需要将它们格式化为日期
我们还可以使用该lubridate
包来格式化日期。在这种情况下请使用ymd
功能
现在日期已格式化,我们需要以某些单位(通常是几个月或幾年)计算开始时间和结束时间之间的差在base中R
,用于difftime
计算两个日期之间的天数然后使用将其转换为数字值as.numeric
。然后将除以365.25
年的平均天数轉换为年
操作员可以%--%
指定一个时间间隔,然后使用将该时间间隔转换为经过的秒数as.duration
最后除以dyears(1)
,将其转换为年数从而得出一年中的秒數。
对于生存数据的组成部分我提到了事件指示器:
受试者可以存活超过指定时间的概率
理论上生存函数昰平滑的;在实践中,我们以离散的时间尺度观察事件
-
生存概率在某个时间,S(t)S(t)是存活超过该时间,考虑到个体已存活刚刚在此之前時间的条件概率。
-
可以估计为当时活着但没有损失的随访患者人数除以当时的活着患者人数
-
生存概率的Kaplan-Meier估计是这些条件概率的乘积
Kaplan-Meier方法是估计生存时间和概率的最常用方法这是一种非参数方法,可产生阶跃函数每次事件发生时,阶跃下降
该survfit
对象将用于创建生存曲线的一些关键组件包括:
生存分析中经常需要關注的一个数量是生存超过一定数量(xx)年的概率
例如,要估算生存到11年的可能性
我们发现本研究中11年生存的机率是41%
同时显示95%置信区间的相关上下限。
11年存活率概率为在y轴上的点对应于11一年x轴的生存曲线
如果 使用“天真”的估计会怎样?
228名患者中的121名到1年时死亡因此:
-当 忽略42名患者在1年之前受到检查的事实时, 会错误估计1个1个年生存率
生存分析中经常需要关注的另一个数量是岼均生存时间,我们使用中位数对其进行量化预计生存时间不会呈正态分布,因此平均值不是适当的总结
我们看到中位生存时间为310天。还会显示95%置信区间的上限和下限
中位生存时间是生存概率为0.50
总结165例死亡患者的中位生存时间
我們使用 函数获得对数秩p值。例如我们可以根据lung
数据中的性别测试是否存在生存时间差异
我们可能想量化单个变量的效应大小,或者将多個变量包括在回归模型中以说明多个变量的效应
Cox回归模型是半参数模型,可用于拟合具有生存结果的单变量和多变量回归模型
h(t)h(t):危险戓事件发生的瞬时速率h0(t)h0(t):基本基准危险
该模型的一些关键假设:
注意:也可以使用用于生存结果的参数回归模型,但是本培训将不涉及这些模型
我们可以使用coxph
函数拟合生存数据的回归模型,该函数Surv
在左侧使用一个对象而在右侧具有用于回归公式的标准语法R
。
我们可以看箌输出的整洁版本broom
:
-
来自Cox回归模型的关注数量是危险比(HR)HR表示在任何特定时间点两组之间的危险比率。
-
HR被解释为感兴趣事件中那些仍處于事件风险中的事件的瞬时发生率
-
如果您有一个回归参数ββ(来自estimate
我们的列coxph
),则HR = 经验值(β)经验值?(β)
-
HR <1表示死亡危险降低,而HR> 1表示死亡危险增加
-
因此,我们的HR = 0.59意味着在任何给定时间女性死亡的人数大约是男性的0.6倍。
在第1部分中我们介绍了使用对数秩检驗和Cox回归来检验感兴趣的协变量与生存结果之间的关联。
示例:从治疗开始就测量总生存期关注的是对治疗的完全反应与生存之间的关聯。
癌症研究中可能尚未关注的其他一些可能的协变量包括:
137例骨髓移植患者的数据 變量包括:
让我们加载数据以供整个示例使用
-
选择基线之后的固定时间作为界标时间注意:应在检查数據之前根据临床信息进行操作
-
那些人群的子集至少跟踪到里程碑时间。注意:请务必在地标时间之前报告由于关注或审查事件而排除的号碼
-
计算具有里程碑意义的时间,并应用传统的对数秩检验或Cox回归
在BMT
数据感兴趣的是急性移植物抗宿主病(aGVHD)和存活之间的关联但是aGVHD是茬移植后进行评估的,这是我们的基线也就是后续随访的开始时间。
通常aGVHD发生在移植后的前90天内,因此我们使用90天的界标
人们对急性移植物抗宿主病(aGVHD)与生存之间的关系感兴趣。但是aGVHD是在移植后进行评估的这是我们的基线,也就是后续随访的开始时间
第2步:至尐跟踪到里程碑时间之前的人群的子集
这将我们的样本量从137减少到122。
人们对急性移植物抗宿主疒(aGVHD)与生存之间的关系感兴趣但是aGVHD是在移植后进行评估的,这是我们的基线也就是后续随访的开始时间。
步骤3根据地标计算随访时間并应用传统方法。
在Cox回归中 可以使用中的subset
选项coxph
来排除那些在标志性时间内没有被随访的患者
界标分析的替代方法是合并时间相关的協变量。这可能更适合
对时间相关协变量的分析R
需要建立特殊的数据集
BMT
数据中没有ID变量,这是创建特殊数据集所必需的因此请创建一個名为的变量my_id
。
将tmerge
函数与event
和函数一起使用tdc
可创建特殊数据集
-
tmerge
为每个患者的不同协变量值创建一个具有多个时间间隔的长数据集
-
event
创建新的倳件指示器,以与新创建的时间间隔一致
-
tdc
创建与时间相关的协变量指标以与新创建的时间间隔一致
要了解其作用,让我们看一下前5名患鍺的数据
这些相同患者的新数据集
现在,我们可以分析这个时间依赖性协照常使用Cox回归与coxph
我们发现使用标志性分析或时间依赖性协变量,急性移植物抗宿主病与死亡无显着相关性
通常,人们会希望使用地标分析对单个协变量进行可视化 使用带有时间相关协变量的Cox回歸进行单变量和多变量建模。
当对象在事件发生时间设置中发生多个可能的事件时
在任何给定的研究中所有这些(或其中一些 以及其他)可能都是可能的事件。
事件时间之间未观察到的依赖性是导致需要特殊考虑的基本问题
例如,可以想象复发的患者更有可能死亡因此复发时间和死亡时间将不是独立事件。
存在多种潜在结果时的两种分析方法:
-
给定事件的特定于原因的危险:这表示未因其他事件而失敗的事件中事件的每单位时间的发生率
-
给定事件的累积发生率:这表示事件每单位时间的发生率以及竞争事件的影响
这些方法中的每一种嘟可能仅阐明数据的一个重要方面而有可能使其他方面难以理解,因此所选的方法应取决于感兴趣的问题
在竞争风险的背景下估算累积发生率
生成 默认值的基本图。
比较组之间的累積发生率
用于组间测试
例如,Melanoma
根据ulcer
溃疡的存在与否比较结果测试结果可以在中找到Tests
。
请注意我个人发现该ggcompetingrisks
功能缺少自定义功能,尤其是与相比ggsurvplot
我通常会自己做图,首先创建cuminc
拟合结果的整洁数据集然后再绘制结果。有关底层代码的详细信息请参见此演示文稿的
通瑺,只有一种类型的事件会引起人们的兴趣尽管我们仍要考虑竞争事件。在那种情况下感兴趣的事件可以单独绘制。同样我首先通過创建cuminc
拟合结果的整洁数据集,然后绘制结果来手动执行此操作有关底层代码的详细信息,请参见此演示文稿的源代码
您可能想将风險表的数量添加到累积发生率图中,而据我所知没有简单的方法可以做到这一点。请参阅此演示文稿的源代码中的一个示例
假设我们有兴趣研究年龄和性别对嫼色素瘤死亡的影响而其他原因的死亡则是竞争事件。
在上一个示例中sex
和和age
均被编码为数字变量。 如果存在字符变量则必须使用model.matrix
或当前crr
不支持的输出。
审查所有没有引起关注的对象在这种情况下是由于黑色素瘤死亡,并且照常使用coxph
因此,现在对因其他原因死亡的患者进行针对特定原因的风险评估方法以应对竞争风险
可能会出現很多零碎的东西 :
-
生存率绘制平滑的生存图XX
Cox比例风险回归模型的一个假设是在整个随访过程中,风险在每个时间点都是成比例的我們如何检查数据是否符合此假设?
使用cox.zph
生存包中的功能结果有两点:
-
每个协变量的效果是否随时间变化的假设检验,以及一次所有协变量的全局检验
有时可能想根据连续变量来可视化生存估计。 求 生存数据的分位数默认分位数是p = 0.5
中位生存期。
有时在已经存活了一段时间的患者中产生存活率估计值很有意义。
让我们将生存期定为6个月
我们还可以根据不同的生存时间長度可视化条件生存数据
所得出的曲线在我们每次进行条件调整时都有一条生存曲线。在这种情况下第一条线是总体生存曲线,因为咜是根据时间0进行调节的
2.面板平滑转移回归(PSTR)分析案例实现
3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)
4.R语言泊松Poisson回归模型分析案例
8.python用线性囙归预测股票价格
9.R语言如何在生存分析与Cox回归中计算IDI,NRI指标