Scorpio_Doll 2025-09-13 13:31 采纳率: 0%
浏览 9

模糊断点回归 stata 实证

请问研究方向是退休对消费的影响 方法是模糊断点回归 看有的参考文献里面用的2sls 请问实证分析哪几个步骤能用2sls 还是说要2sls与FRD 混合着用 还是说必须用FRD 求个朋友讲解清楚 谢谢大家
(目前用FRD是真的跑不出来 而且目前有几个疑问:我用的是charls2011 2013 2015 2018四期的混合截面数据,参考相关文献,把样本限制在男性户主非农业户口年龄在50到70岁的群体。疑问目前有如下几个:
第一,一般首先要看退休率在60岁断点处是否有跳跃,但是回归结果只有在p(0)时候显著,后面不加p(0) 结果不显著,stata给出的最优阶数是1阶,我又试了2,3阶,也都不显著。但是用rdplot画图也能看出退休率在断点处有跳跃,尽管幅度不是很大,这里参考一些相关期刊和硕士论文,发现他们的做出来的结果跳跃幅度就很大,不知道是哪个步骤出现了问题。
第二,做退休对消费的回归时,只有食物消费和医疗消费在p(0)时候,第一二阶段都显著,1阶及以上都不显著了。用rdplot画对应的图像时,医疗消费0-4阶在断点处都有向上跳跃;食物消费,不手动设定阶数(默认四阶)在断点处不发生跳跃,0-3阶都有向上跳跃;而其他消费,如衣物、旅游等消费,rdrobust的第一、二阶段都不显著。
第三,进行控制变量连续性检验时,rdplot画的图都在断点处有跳跃,但是用rdrobust回归时,p值都大于0.1,说明连续性检验通过,就很矛盾。)

img

img

img

img

img

img

img

img

img

img

img

img

img

img

img

img

  • 写回答

5条回答 默认 最新

  • 檀越@新空间 2025-09-13 13:45
    关注

    下午好🌅🌅🌅
    本答案参考通义千问

    你提出的问题非常具有代表性,特别是在使用模糊断点回归(Fuzzy Regression Discontinuity, FRD)进行实证研究时,尤其是针对“退休对消费的影响”这一主题。以下是对你问题的详细解答,包括FRD与2SLS的关系、实证步骤、可能存在的问题以及解决方案


    一、FRD 与 2SLS 的关系

    1. 模糊断点回归(FRD)的基本原理

    • FRD 是一种基于断点处政策或制度变化的因果识别方法。
    • 模糊断点中,政策是否实施并不是完全由断点决定,而是存在一定的概率跳跃,即在断点附近,个体被“分配”到处理组的概率发生跳跃。
    • 因此,FRD 本质上是一个工具变量(IV)模型,其中断点附近的连续变量作为工具变量(如年龄),而实际是否接受处理(如是否退休)是内生变量。

    2. 为什么需要 2SLS?

    • 2SLS(Two-Stage Least Squares) 是解决内生性问题的一种经典方法。
    • 在 FRD 中,第一阶段用断点附近的连续变量(如年龄)预测是否接受处理(如是否退休);
    • 第二阶段用第一阶段的预测值来估计处理效应(如退休对消费的影响)。
    • 所以,FRD 实际上就是 2SLS 的一个特例,只是其工具变量是断点附近的连续变量。

    3. 是否必须使用 FRD?

    • 不必须,但 FRD 是目前最常用于模糊断点设计的方法。
    • 如果你发现 FRD 无法得到显著结果,可以尝试以下几种方式:
      • 使用 2SLS 直接进行估计;
      • 尝试不同的带宽(bandwidth)多项式阶数(polynomial order)
      • 检查数据是否满足 FRD 的关键假设(如连续性)。

    二、FRD 实证分析的步骤(结合 2SLS)

    1. 数据准备与样本筛选

    • 确保你的样本满足 FRD 的前提条件:
      • 断点明确(如60岁退休);
      • 断点前后样本足够多
      • 控制变量在断点处连续

    2. 估计退休率在断点处的跳跃(P(0))

    • 使用 rdrobustrdplot 命令绘制退休率随年龄变化的图,并检查断点处是否有跳跃。
    • 注意:如果只在 P(0) 显著,其他阶数不显著,可能是:
      • 带宽选择不当
      • 样本量不足
      • 断点处跳跃本身不明显

    3. 第一阶段:估计是否退休(处理变量)

    • 使用 rdrobustrddensity 进行第一阶段估计,预测是否退休。
    • 命令示例:
      rdrobust retirement age, c(60) p(0)
      

    4. 第二阶段:估计退休对消费的影响

    • 使用第一阶段的预测值作为工具变量,进行 2SLS 估计。
    • 命令示例:
      ivreg2 consumption (retirement = age) [other controls], r
      

    5. 控制变量的连续性检验

    • 使用 rdrobust 检验控制变量在断点处是否连续。
    • 如果 RD 图显示有跳跃,但统计检验不显著,可能是因为:
      • 带宽设置过大/过小
      • 变量分布不均
      • 非线性关系未被捕捉

    三、你当前遇到的问题及解决方案

    1. 退休率在断点处跳跃不显著

    ✅ 可能原因:

    • 带宽选择不当:默认带宽可能不适合你的数据;
    • 断点处跳跃本身不明显:可能真实情况是退休率在60岁没有明显跳跃;
    • 数据质量差:如样本量少、变量测量误差等。

    ✅ 解决方案:

    • 尝试调整带宽:
      rdrobust retirement age, c(60) h(10) p(0)  // h为带宽
      
    • 使用 rdplot 绘制不同带宽下的图形,观察趋势是否一致;
    • 检查是否存在遗漏变量导致退休率在断点处不显著。

    2. 消费变量在断点处跳跃不显著

    ✅ 可能原因:

    • 消费变量受多种因素影响,如收入、家庭结构、地区差异等;
    • 消费类型不同,如食物、医疗等更容易受到退休影响;
    • 模型设定不当,如未加入控制变量或未考虑非线性关系。

    ✅ 解决方案:

    • 加入更多控制变量(如收入、教育、婚姻状况等);
    • 尝试不同的多项式阶数(如 p(1)p(2));
    • 使用 rdrobust 进行稳健估计,避免过度拟合。
    rdrobust consumption age, c(60) p(1) covs(income education)
    

    3. 控制变量连续性检验不显著但图像显示跳跃

    ✅ 可能原因:

    • 统计检验的敏感性:某些变量在断点处跳跃幅度较小,统计上不显著;
    • 图形展示的主观性:RD 图可能因带宽或平滑方式不同而显示跳跃;
    • 变量分布不均:如性别、职业等在断点两侧分布不均衡。

    ✅ 解决方案:

    • 尝试不同的带宽或平滑方式;
    • 使用 rdrobustcovs() 参数加入控制变量;
    • 检查变量在断点两侧的分布是否平衡。

    四、总结:FRD 与 2SLS 的关系与使用建议

    | 步骤 | 内容 | 是否需要 2SLS | |------|------|----------------| | 1 | 样本筛选 | 否 | | 2 | 估计退休率跳跃 | 否 | | 3 | 第一阶段:预测是否退休 | (2SLS) | | 4 | 第二阶段:估计消费影响 | (2SLS) | | 5 | 控制变量连续性检验 | 否 |

    结论

    • FRD 本质上是 2SLS 的一个特例,你需要同时进行第一阶段第二阶段的估计;
    • 如果 FRD 结果不显著,可以尝试调整带宽、多项式阶数、控制变量
    • 如果仍然不显著,可以尝试直接使用 2SLS,将年龄作为工具变量。

    五、代码示例(修改后的版本)

    1. 第一阶段:估计是否退休

    * 第一阶段:估计是否退休(处理变量)
    rdrobust retirement age, c(60) p(1) h(10)
    

    2. 第二阶段:估计消费影响

    * 第二阶段:使用第一阶段预测值进行 2SLS 估计
    ivreg2 consumption (retirement = age) income education marriage, r
    

    3. 控制变量连续性检验

    * 控制变量连续性检验
    rdrobust income age, c(60) p(1) covs(age)
    

    如果你愿意提供部分数据或更详细的代码片段,我可以进一步帮你调试和优化模型。希望这些信息对你有帮助!

    评论

报告相同问题?

问题事件

  • 创建了问题 9月13日