数据分析中因果分析的地位如何?

理解世界,我们可以从相关性的角度去描述,统计,机器学习,很多问题都是从相关的角度去描述的。我们去构建一个模型,不管是统计机器学习模型,还是深度学习模型,本质上是构建一个复杂映射。从特征到标签的一个映射,这个映射是有用的,但不完全有用。

我们在这里用一个隐喻,下雨,来描述causal 和relevance。我们可以构建一个关于预测明天是否下雨的模型,从搜集到的大量特征,以及历史的下雨结果最为标签,构建模型。不管准确率多少,我们用这样一个模型能够预测明天是否能够下雨。

但是,我们很多时候要的不仅仅是预测,而是需要改变现状,例如沙漠中,我们想要哪些因素改变了,能够导致下雨。这就涉及到因果推断, causal inference 。

在报告随机实验的结果时,除了意向治疗效应外,研究人员通常选择呈现符合方案效应。然而,这些符合方案的影响通常是回顾性描述的,例如,比较在整个研究期间坚持其指定治疗策略的个体之间的结果。这种对符合方案效应的回顾性定义经常被混淆,并且无法进行因果解释,因为它遇到了治疗混杂因素。

我们的目标是概述使用逆概率加权对生存结果的因果推断。这里描述的基本概念也适用于其他类型的暴露策略,尽管这些可能需要额外的设计或分析考虑。 本文使用生存模型因果分 析流行病学随访研究数据 查看文末了解数据获取方式 )。


通过风险模型对生存曲线进行参数化估计

# 拟合参数性风险模型

#对每个人月的估计(1-风险)的分配 */

# 计算每个人月的生存率

# 一些数据管理来绘制估计的生存曲线

# 拟合加权风险模型

# 计算每个人月的生存率

# 一些数据管理来绘制估计的生存曲线

#  带有协变量的风险模型的拟合情况

# 创建数据集,包括每个治疗水平下的所有时间点 

# 每个人在每个治疗水平下的所有时间点

# 对数据进行一些预处理

# 定义需要被最小化的估计函数

# 使用简单的分割法找到95%置信度下限和上限的估计值

我要回帖

更多关于 相关而非因果大数据例子 的文章

 

随机推荐