理解世界,我们可以从相关性的角度去描述,统计,机器学习,很多问题都是从相关的角度去描述的。我们去构建一个模型,不管是统计机器学习模型,还是深度学习模型,本质上是构建一个复杂映射。从特征到标签的一个映射,这个映射是有用的,但不完全有用。
我们在这里用一个隐喻,下雨,来描述causal 和relevance。我们可以构建一个关于预测明天是否下雨的模型,从搜集到的大量特征,以及历史的下雨结果最为标签,构建模型。不管准确率多少,我们用这样一个模型能够预测明天是否能够下雨。
但是,我们很多时候要的不仅仅是预测,而是需要改变现状,例如沙漠中,我们想要哪些因素改变了,能够导致下雨。这就涉及到因果推断, causal inference 。
在报告随机实验的结果时,除了意向治疗效应外,研究人员通常选择呈现符合方案效应。然而,这些符合方案的影响通常是回顾性描述的,例如,比较在整个研究期间坚持其指定治疗策略的个体之间的结果。这种对符合方案效应的回顾性定义经常被混淆,并且无法进行因果解释,因为它遇到了治疗混杂因素。
我们的目标是概述使用逆概率加权对生存结果的因果推断。这里描述的基本概念也适用于其他类型的暴露策略,尽管这些可能需要额外的设计或分析考虑。 本文使用生存模型因果分 析流行病学随访研究数据 ( 查看文末了解数据获取方式 )。
# 拟合参数性风险模型
#对每个人月的估计(1-风险)的分配 */
# 计算每个人月的生存率
# 一些数据管理来绘制估计的生存曲线
# 拟合加权风险模型
# 计算每个人月的生存率
# 一些数据管理来绘制估计的生存曲线
# 带有协变量的风险模型的拟合情况
# 创建数据集,包括每个治疗水平下的所有时间点
# 每个人在每个治疗水平下的所有时间点
# 对数据进行一些预处理
# 定义需要被最小化的估计函数
# 使用简单的分割法找到95%置信度下限和上限的估计值