1 .因果估计介绍
当前量化战略实施效果评价越来越重要,数据驱动产品和运营、业务等各方面理念越来越受到重视。 目前这方面流行的方法除了实验方法AB测试外,还有各种因果估计的观察研究方法。
认为“统计相关性不意味着因果关系”,数据分析工作中经常遇到原因分析问题,并且由于各种原因无法进行Ab测试直接随机分组实验的比较结果。 举几个例子,feeds流程中刷新推荐战略内容的用户留存率更高,他们的高留存率是基于这个推荐战略吗? 这个战略对提高整体留存率有多少效果呢?
因为上周发布某个游戏广告的用户的注册率更高,他们的高注册率在多大程度上是广告带来的,在多大程度上他们自己是潜力很大的用户?
在以上情况下,需要分析一种策略(干预策略)对结果的影响情况,探究其因果效应。 可以利用现有的用户行为数据进行观察研究分析。 观察研究中最重要的理念之一是反事实框架,即与我们可以观测到的现实相反的状态。 在反事实的框架下进行因果推测的原理如下。 变量x对变量y变化的因果效果可以表现为x成立时的y的结果和x不成立时的y的反事实的结果的差异。 如果存在这个差异,并且统计上很明显,就可以说变量x对变量y有因果效应,否则两者之间不存在因果关系。 因此,因果推测的难点在于,不能同时对各用户观测两种状态下的结果。
一种粗暴的想法是将实验组和对照组的样品“匹配”。 例如,对于实验组的所有样品,我们都去对照组寻找一模一样的样品。 如果所有示例属性都是离散的并且属性的维数(个数)小,则可能可以这样做。 如果示例属性有几个连续变量,或者示例属性的维很高,这太粗暴了,大多数人找不到匹配对象。 因此,“趋势得分匹配”可以用于解决寻找匹配对象的难点。
趋势分数匹配PSM是因果估计的统计学方法之一,用于处理观察研究的数据。 在观察研究中,由于各种各样的理由,数据的偏差和混杂变量很多。 倾向分数匹配的方法是为了减少这些偏差和混合变量的影响,以便更合理地比较实验组和对照组。 PSM是处理观察性研究(observational study )的典型方法。
2. PSM原理
“倾向性得分”的定义是直观的,即一个用户属于实验组的“倾向性”: e(x )=pr ) t=1|x )=pr ) t=1)。 具有不同特征的用户被干预的概率应该相等。 直观上,对于倾向性分数相同的组的用户,treatment和特征是独立的,treatment和潜在结果也是独立的。 也就是说,实现实验中随机性的要求。 理论上,如果对照组中得分相等(要求稍严格)的用户与各实验组的用户一致,就可以得到同质的实验组和对照组,可以假装做了a/b测试,随意进行组间比较倾向得分法(PS )主要有分层、匹配、加权三种方法。 这里趋势得分匹配法是一种匹配方法。
以上的话具体实施后,可以分为以下步骤。
1、倾向性分数估计:倾向性分数怎么估计?
2、倾向性得分匹配:如何用得分完成匹配?
3、平衡检查:怎么知道匹配效果?
4、因果效应估计:匹配后如何从匹配后的两组用户那里得到因果效应?
5、灵敏度分析:混淆变量的选择等几个主观分析能得出一致的分析结论吗?
Step 1:倾向性评分估计
这个步骤是直接建模的问题,变量是Treatment,变量是是否进行了干预,自变量是用户特征变量。 应用LR或其他更复杂的模型,诸如LR LightGBM的模型来估计趋势得分。
Step 2:倾向性评分匹配
如果有各用户的倾向性评分,则相对于当前实验组用户,匹配接近同一对照组。
1、匹配用得分:原倾向性得分e(x )或得分logit,ln ) e(x )/(1e ) x ) )。
2、筛选出修剪倾向分数“极端”的用户。 一般方法是保持[a,b]区间得分的用户。 对于区间选择,实验组与对照组用户得分区间的交集仅保持区间中央的90%或95%,取原得分为[ 0.05,0.95 ]的用户。
3、匹配(matching )实验组对对照组按得分进行匹配,比较常见的有以下两种方法: nearest neighbors:进行1对k的有无倒带的匹配。
radius:对各实验组的用户表示,匹配上的所有得分差都小于指定radius的用户。
4、分差上限:要求我们与用户一致时,每对分差不超过指定上限。
Step 3:平衡检查
如何衡量“流平效应”? 直观上,观察匹配前后的倾向得分的分布和匹配前后的特征的QQ-Plot。 匹配后实验组和对照组的倾向性评分分布更接近,变量分布也更接近。 量化标准指数(SMD )。 SMD的计算方式之一是(实验组均值-对照组均值) /实验组标准差。 一般来说,如果一个变量的SMD在0.2以下,则认为该变量的流平质量是可以接受的。 当某个变量的SMD超过0.2时,需要根据经验确认该变量是否不那么重要。
Step 4:因果效应估计
继续阅读公众h :请转到h:DataGo数据狗