Propensity Score Matching(PSM)

本文最后更新于：2022年4月24日下午

PSM能够解决什么问题？

在医疗领域，研究一款新药是否有效，通常需要做的是大规模分组实验，treatment（实验组）与 control（对照组）除了服用的药物有所不同外，其他因素，如：身高、体重、病情等，应该是类似的，这样的实验结果才能对新药的药效有客观的评价。

在互联网、电商等公司，也有类似的场景：为了测试一个新优化的页面是否能够提高支付转化率，需要做ABtest。这时一个很重要的环节就是将流量随机的分为A组和B组，A与B的关系是平行宇宙，我们希望的是A与B的区别只是看到的页面有所不同，其他特征如性别、用户生命周期等均一致。

但是在实际工作中，我们也可能遇到现实情况不允许做随机实验，那么我们如何去判定一个动作的收益呢？或者说如何科学地将某个指标的变化归因于某个动作呢？这时PSM可能是一个解决方案。

Let’s get started

问题描述

一个NGO组织在一些村庄建立了健康诊所（实验组），并且选取另外一些村庄不建立健康诊所，设置其为对照组
值得注意的是这些村庄的分组并非随机，他们之间可能存在一些bias
与此同时，这个NGO组织在启动建立健康诊所这个项目前，对所有村庄（包括实验组和对照组村庄）有过调查，手上有一些村庄的特征
通常情况下，我们可以分别对比对照组和实验组项目实施前和项目实施后的新生儿死亡率，进行Difference in Difference 的研究，目前我们假设，并没有历史的新生儿死亡率数据

简单粗暴看健康诊所项目对新生儿死亡率的影响

上图中的T=1代表建立诊所，T=0代表没有建立诊所，infant mortality为新生儿死亡率。我们简单看下每个分组的平均新生儿死亡率：

(⇀‸↼‶)我去，建立了健康诊所的实验组新生儿死亡率16.5%，而没有建立健康诊所的对照组新生儿死亡率12.4%，居然健康诊所对新生儿健康的影响是负向的？这非常不make sense！有理由怀疑，AA差异非常明显（也就是在项目启动前，实验组和对照组有明显的差异）

更加科学地看这个NGO项目的效果

在问题描述里，我们提到这个NGO组织在启动健康诊所项目之前对所有村庄进行过仔细的调研，有一些其他的特征被采集。

我们在这里添加了两个特征：poverty rate 贫穷率和per capita doctors 人均医生数。大体来看，实验组VS对照组，有更高的贫穷率和更低的人均医生数。在这样的情况下，我们如何来衡量该项目的效果呢？ 1. 为每一个实验组的村庄创建/找到新的对照组：针对每一个实验组的村庄，找到其特征类似的对照组。换句话说，针对每一个实验组的村庄S，在对照组中找到其“映射”S’，在项目启动前，这个S’与S有相似性（类似的贫穷率、类似的人均医生数等）。这个映射S’的集合，我们姑且称之为新对照组。 2. 计算实验组效果计算实验组和新对照组平均新生儿死亡率，进行对比。

OK，到此为止一些basic idea已经介绍完毕，下面搞一个比较细节的问题：如何找到映射S’？这时我们就需要用到Propensity Score的计算。

PSM Step1：计算Propensity Score

我们选择使用Logistic Regression作为计算Propensity Score的方法： $Prob(T=1|X_1,X_2,...,X_k)$ 在NGO的健康诊所场景下，自变量：$X_1$为贫穷率，$X_2$为人均医生数，因变量为T。这个操作可以解释为，通过背景数据（贫困率、人均医生数）来预测每一个村庄与实验组村庄的相似程度，从而帮助我们找到新的对照组。 可以参考如下python代码搭建逻辑回归模型，并预测对照组和实验组中的每一个村庄的$Prob$值

import statsmodels.api as sm
formula = "T ~ poverty_rate + per_capita_doctors"
model = sm.Logit.from_formula(formula, data = data)
re = model.fit()
X = data[['poverty_rate', 'per_capita_doctors']]
data['ps'] = re.predict(X)