PSM倾向得分匹配法在Stata中如何处理协变量不平衡问题？

在使用PSM倾向得分匹配法进行因果推断时，常遇到的一个问题是协变量在处理组与对照组之间存在不平衡。那么，在Stata中如何利用PSM有效识别并处理这些协变量的不平衡？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

程昱森 2025-06-26 11:15

关注

一、PSM倾向得分匹配中的协变量不平衡问题概述

在因果推断中，倾向得分匹配（Propensity Score Matching, PSM）是一种广泛使用的非实验性方法，用于估计处理效应。其核心思想是通过构建一个倾向得分（即个体接受处理的概率），将处理组与对照组进行匹配，从而减少由于协变量不平衡带来的偏倚。

然而，在实际应用中，尤其是Stata等统计软件操作过程中，研究者常常遇到匹配后协变量仍然存在显著差异的问题，这直接影响到因果效应的准确性。

二、识别协变量不平衡的方法

标准化均值差（Standardized Mean Difference, SMD）：计算每个协变量在处理组和对照组之间的均值差异，并除以标准差。SMD绝对值大于0.1通常认为存在不平衡。
t检验或卡方检验：对匹配前后的协变量进行统计检验，判断是否具有显著差异。
可视化分析：使用直方图、密度图或QQ图对比匹配前后协变量分布。
协变量平衡表（Balance Table）：Stata命令如 pstest 可以自动生成协变量平衡表，展示各变量在匹配前后的差异。

三、在Stata中实现PSM并评估协变量平衡

以下是Stata中实现PSM并检查协变量平衡的基本流程：


// 1. 设置数据为处理组
gen treatment = (group == 1)

// 2. 进行Logistic回归估计倾向得分
logit treatment age gender income education

// 3. 调用psmatch2进行最近邻匹配
psmatch2 treatment age gender income education, out(y) logit neighbor(1)

// 4. 检查协变量平衡情况
pstest age gender income education

四、处理协变量不平衡的策略

当发现某些协变量在匹配后仍不平衡时，可采取以下措施：

策略	描述	Stata实现建议
增加协变量数量	将更多潜在影响因素纳入模型，提高匹配精度	在logit模型中添加额外变量
调整匹配方法	尝试核匹配、半径匹配或最优匹配	使用 `kernel` 或 `radius` 选项
协变量加权	通过加权方式增强关键变量的影响	使用 `weights()` 参数
协变量筛选	移除无关或冗余变量，防止过拟合	逐步回归或LASSO选择重要变量

五、进阶技术：结合协变量平衡的正则化方法

近年来，结合机器学习与传统PSM的方法逐渐流行，例如：

使用LASSO Logistic Regression进行倾向得分建模，自动筛选重要协变量。
采用广义精确匹配（Exact Matching）结合PSM。
引入协变量平衡倾向得分（CBPS）方法，使倾向得分估计过程直接优化协变量平衡。

在Stata中，可通过外部包安装 cbps 命令实现该方法。

六、案例分析流程图（Mermaid格式）

graph TD A[数据准备] --> B[定义处理组] B --> C[估计倾向得分] C --> D[执行PSM匹配] D --> E[检查协变量平衡] E -- 平衡良好 --> F[估计处理效应] E -- 存在不平衡 --> G[调整模型/匹配方法] G --> C

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

实战指南：利用Stata实现PSM倾向得分匹配的完整流程
2026-02-15 01:00

编程勇者的博客本文提供了一份利用Stata软件实现PSM倾向得分匹配的完整实战指南。详细解析了从理解PSM原理、数据准备、Logit模型估计倾向得分，到执行匹配、检验平衡性与分析结果的全流程，并分享了常见陷阱与进阶技巧，帮助研究者...
倾向得分匹配法PSM代码(包括近邻匹配、核匹配、半径匹配、马氏匹配、样条匹配)-最新出炉.zip
2024-10-30 14:40

倾向得分匹配法（Propensity Score Matching，PSM）是一种用于统计学中的因果推断方法，它通过匹配具有相似倾向得分的处理组和对照组来减少实验设计中选择偏差的问题。该技术尤其在观察性研究中得到广泛应用，因为它...
倾向得分匹配的stata命令_政策评估方法引荐｜广义倾向得分匹配（GPSM）
2020-12-10 00:21

weixin_39550258的博客和大家分享一下最近学习的进展，在痛苦读完stata journal和练习OA程序，已经可以基本完成广义倾向得分的估计了，在国内这一方法还没有形成广泛运用，因此学习资源也是有点稀缺的，在文章最后给各位提供数据和代码以...
倾向得分匹配（Propensity Score Matching，PSM）
2024-06-21 08:00

deepdata_cn的博客倾向得分匹配（Propensity Score Matching，PSM）是一种统计学方法，用于处理观察研究中的偏差问题。这种方法通过计算每个个体接受某种处理（例如，参与某个项目、接受某种治疗等）的概率，然后根据这个概率将实验组...
处理效应模型stata实例_Stata手动：各类匹配方法大全 A——理论篇
2020-12-19 08:55

weixin_39994438的博客 Stata 连享会主页 || 视频 || 推文温馨提示：定期清理浏览器缓存，可以获得最佳浏览体验。✌ 作者：黄俊凯 (中国人民大学)E-Mail: kopanswer@126.comNote: 助教招聘信息请进入「课程主页」查看。因果推断-内...
对照公司全期未被持有_psm_
2021-09-29 00:24

在`psmatch2`的使用过程中，首先需要估计处理（例如，是否被持有）的倾向得分，这通常基于一系列的协变量（如公司规模、行业、财务指标等）。然后，根据这些倾向得分进行匹配，使得处理组（被持有的公司）和对照组...
PUBPOL-527
2021-03-05 05:09

8. **匹配方法**：可能采用了倾向得分匹配（PSM）、工具变量（IV）或双重差分（DID）等，以减少选择偏误并提高估计的因果效应。 9. **图形制作**：Stata可以创建各种统计图形，如散点图、条形图、箱线图和热力图，...
stata盈余管理jones模型命令_2021连享会Stata寒假班
2020-12-07 18:13

weixin_39902598的博客 25 日-2 月 4 日方式：网络直播授课教师：连玉君 (初级+高级) || 江艇 (论文班)报名链接： http://junquan18903405450.mikecrm.com/ZXol6to课程主页： https://gitee.com/arlionn/PXNote: 预习资料、常见问题解答...
工业机器人的应用如何影响劳动时长？——来自微观个体的证据
2026-01-09 19:47

Olivia-gogogo的博客研究发现，工业机器人应用显著缩短了个体劳动时长，这一结论在经过工具变量法、倾向得分匹配、替换核心解释变量等一系列稳健性检验后依然成立。机制分析表明，工业机器人通过提升生产效率、优化工作流程的“效率提升...
Stata连享会推文列表
2018-05-31 14:42

arlionn的博客 Stata 现场培训报名中 Stata学术论文班-2018暑期即将开班新书: The SAGE Handbook of Regression Analysis and Causal Inference Stata: 断点回归分析 (RDD) 文献和命令 Stata: 两本断点回归分析 (RDD) 易懂教程...
数据科学家必学的因果推断方法
2025-04-20 11:48

喜欢编程就关注我的博客本文介绍了数据科学家必学的几种因果推断方法，包括随机对照试验、双重差分法、工具变量法、匹配方法和断点回归，并通过代码和表格示例进行了详细分析。这些方法各有优缺点，适用于不同的场景和数据特征。在实际应用...
分组计算均值_命令更新之t2docx——报告分组均值t检验
2021-01-12 18:56

落步惊风的博客爬虫俱乐部将于2019年10月2日至10月5日在湖北武汉举行Python编程技术培训，本次培训采用理论与案例相结合的方式，旨在帮助零基础学员轻松入门Python，由浅入深学习和掌握Python编程技术，尤其是爬虫技术和文本分析...
python包怎么做双重差分did分析_数据分析学长送给学弟们的经验之谈
2020-12-30 12:17

着相鱼的博客导读以下是我在近三年做各类计量和统计分析过程中感受最深的东西，或能对大家有所帮助。当然，它不是ABC的教程，也不是细致的数据分析方法介绍，它只是“总结”和“体会”。由于我所学所做均甚杂，我也不是学统计、...
数据分析与逻辑思维：六步解决业务难题；参考书籍《数据分析原理：6步解决业务分析难题 (周文全, 黄怡媛, 马炯雄)》
2025-05-09 21:50

小胡说技书的博客本文将以"懂业务、定指标、选方法、提数据、做测试、得结论"六步分析框架为主线，从形式逻辑、归纳演绎、因果分析和变量控制等角度，系统剖析数据分析在业务决策中的应用。每一步都将强调逻辑本质、决策价值和适用...
DID会固定年份吗_双重差分方法（DID）解析、影响机制分析与三重差分方法（DDD）...
2020-11-20 23:18

weixin_39546661的博客一、双重差分解析双重差分方法近几年在主流期刊流行起来(这种趋势大概会持续几年)，主要原因在于：(1)可以很大程度上避免内生性问题，政策相对于微观经济主体而言一般是外生的，因而不存在逆向因果问题。...
python t检验_命令更新之t2docx——报告分组均值t检验
2020-11-27 06:28

weixin_39614322的博客爬虫俱乐部将于2019年10月2日至10月5日在湖北武汉举行Python编程技术培训，本次培训采用理论与案例相结合的方式，旨在帮助零基础学员轻松入门Python，由浅入深学习和掌握Python编程技术，尤其是爬虫技术和文本分析...
Stata代码：PSM与DID方法的综合应用实践
2025-05-30 08:01

咸鱼cc的博客文件通过倾向得分匹配（PSM）技术减少选择偏差，并通过DID分析比较干预组与对照组的变化差异，特别适用于处理效应非线性或不均匀的复杂场景。包含数据预处理、创建倾向得分、匹配、评估匹配质量、DID估计、敏感性...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月26日