【Uplift】因果推断基础篇

https://zhuanlan.zhihu.com/p/362311467

Uplift与因果推断

因果推断(Causal Inference)研究如何更加科学识别变量间的因果关系,是Uplift Modeling的理论基础。

在通常的预测任务中,我们拟合的实际是Y与X的相关关系,X甚至可以是Y的结果,如GDP和发电量之间可能有一系列复杂的关系,但只要二者相关就可以互相预测。

在另一些场景中则有所区别,如预测任务要指导干预(Treatment)决策时,我们所能掌控的只有Treatment变量,此时我们希望知道的是执行干预与否的效果差异(通常看增量,uplift),目的是决策是否执行或执行何种干预。如在“发券&下单”的问题中,用户的历史订单数对下单率预估有较大帮助,但对是否发券的指导意义可能会大打折扣。

本文概述与Uplift相关或有助于理解Uplift Modeling的因果推断相关的理论知识。

相关、因果、辛普森悖论

**相关和因果:**理解因果关系首先是和相关关系做区分,因果关系要求“原因”先于并导致“结果”,而相关关系对顺序不做要求。参考材料中提到了很多示例,如“溺水死亡人数与冰激凌销量正相关”,显然二者不是因果关系,而是由“气温(或季节)”联系起来的相关关系。

另一个很有名的现象是辛普森悖论(Simpson Paradox)。下面是[1]中一个例子,看“吃药”和“康复”二者的关系。如下表,从男性或女性分别看,都可以观察到吃药是有效的,但整体看会得到吃药是无效的结论。

在这里插入图片描述

导致该问题的原因是这里“是否康复”除了受到“吃药”的影响,也会受到“性别”的影响,此时“性别”就是一个混淆变量(Confounder)。

用一个直观的几何表示如下,“Men”整体的康复率高于“Women”,且“Women+Treat”的康复率低于“Men+No Treat”,因此当“吃药”组中“Women”比例高而“安慰剂”组中“Men”比例高时,可能出现这样的结果。

在这里插入图片描述

用下文提到的因果图表示为,此时单独一个Drug判断康复是不准确的

在这里插入图片描述

再扩展一个例子,X是运动量,Y是胆固醇量,每个实线椭圆表示一个年龄组,分组看运动有效减少了胆固醇;而从虚线的全局数据看则相反。此时“年龄”变为一个混淆变量,干扰估计结果。

在这里插入图片描述

因果图

因果图对于理解因果关系很有帮助,这里列举三个基本结构。同样取自[1]中的一些例子(注:极端情况相关性可能有差异)。最后简单介绍前门准则和后门准则。

基本结构

链状结构(Chain):XY、XZ、YZ都相关;给定Y时,XZ无关。
P ( Z = z ∣ X = x , Y = c ) = P ( Z = z ∣ Y = c ) P(Z=z|X=x,Y=c)=P(Z=z|Y=c) P(Z=zX=x,Y=c)=P(Z=zY=c)
在这里插入图片描述


叉状结构(Fork):XY、XZ、YZ都相关,但YZ不为因果;给定X时,YZ不相关。

在这里插入图片描述

对撞结构(Collider):XZ、YZ相关,XY不相关;给定Z时,XY相关

在这里插入图片描述

前门、后门准则

后门准则(back-door):存在变量集合Z,①Z中节点不为X的后代;②Z阻断所有XY之间指向X的路径。此时XY的因果作用可识别
P ( y ∣ d o ( X ) = x ) = ∑ z P ( y ∣ x , z ) P ( z ) P(y|do(X)=x)=\sum_{z}P(y|x,z)P(z) P(ydo(X)=x)=zP(yx,z)P(z)
前门准则(front-door):存在变量集合Z,①Z切断所有X到Y的直接路径;②X到Z无后门路径;③所有Z到Y的后门路径被X切断。此时,若P(x,z)>0,则XY的因果作用可识别
P ( y ∣ d o ( X ) = x ) = ∑ z P ( z ∣ x ) ∑ x ′ P ( y ∣ x ′ , z ) P (

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值