fsk33 2024-01-27 15:45 采纳率: 73.5%
浏览 13
已结题

如何分析这个用R语言画的箱线图+抖动散点图?

一个基于影像组学特征预测脑出血预后的模型,训练集(n=39)数据经LASSO降维筛选后得到一组最优特征,建立了一个预测模型。然后在R环境下用这个模型对训练集里的病例进行预测(分别预测预后好和预后差,其中预后好表示为event=0,预后差为event=1),画出箱线图+抖动散点图。

img

需要了解以下:
1.prob_min和prob_1se有何区别?
2.蓝色和黄色箱内的散点分布分别能说明什么(模型预测性能如何)?
3.箱内的点和箱外的点分别代表什么?
谢谢,科研初尝刚起步,网上的解释太杂,好多复杂。

  • 写回答

17条回答 默认 最新

  • 专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-01-27 15:51
    关注

    引自免费微信小程序:皆我百晓生

    在您描述的R语言箱线图+抖动散点图中,结合医学研究背景和箱线图通常的表示方法,我们可以进行如下分析:

    1. prob_min 和 prob_1se 的区别

      • prob_min 可能代表的是模型预测结果中预后概率(好或差)的最小值。
      • prob_1se 可能是指模型预测的概率加上或减去标准误差(1个标准误)后的阈值。在统计学中,标准误是衡量均值估计的标准偏差,所以prob_1se可能反映了基于样本估计的预后概率的一个置信区间边界。
    2. 蓝色和黄色箱内的散点分布

      • 蓝色和黄色分别对应两个不同的事件类别(event=0, 预后好;event=1, 预后差),每个箱线图内部的抖动散点展示了模型对每类病例预测的预后概率分布情况。
      • 散点分布的密集程度、位置以及是否与箱线图的中位数、四分位数吻合,可以反映模型对于不同预后分类的区分能力。如果两类之间的预测概率分布明显分离,说明模型的预测性能较好,能够有效地区分预后好的患者和预后差的患者。
    3. 箱内的点和箱外的点

      • 箱内点通常代表了数据集中大部分样本点的四分位数范围内的预测值。箱体的上边缘是第三四分位数(Q3),下边缘是第一四分位数(Q1),中位数(median)用横线表示在箱体内。
      • 箱外的点(通常是单独绘制的小圆点或者通过“蜜蜂式”排列的抖动点)表示离群值(outliers),即这些样本的预测预后概率显著高于Q3 + 1.5 * IQR(四分位距)或低于Q1 - 1.5 * IQR。这些离群点的存在可能意味着模型在处理这些特殊案例时存在一定的困难,或者是这些病例具有特殊的影像组学特征。

    至于Wilcoxon检验及p值信息,则表明您进行了非参数的Wilcoxon秩和检验来比较两组(预后好和预后差)的预测概率,并且结果显示这两组之间有显著差异(p值小于0.05)。这进一步佐证了模型在区分两种预后上的统计学意义。

    评论

报告相同问题?

问题事件

  • 系统已结题 2月4日
  • 创建了问题 1月27日