PCA主成分分析累计可解释方差结果怎么看？

各个主成分的可解释方差，然后选取累计可解释方差在 80-90% 的前 k 个主成分。但是图里都是零点零零几？

基于可解释方差（推荐）
除了基于 Tracy–Widom statistics 检验主成分的显著性外，还可以根据每个主成分的可解释方差计算。一般，选取累计解释 80-90% 的前 k 个主成分就足够。Plink、GCTA 等工具不能输出各个主成分的可解释方差，要这个信息的话可以用 vcfR、SNPRelate、bigsnpr、pcadapt 等 R 包。

SNPRelate 的并行计算速度比较快，以它为例，计算 PCA 并且得到可解释方差：


# from shiyanhe and zhaozhuji.net
# 从 Bioconductor 安装 SNPRelate 包和它依赖的 gdsfmt 包
if (!requireNamespace("BiocManager", quietly=TRUE))
    install.packages("BiocManager")
BiocManager::install("gdsfmt")
BiocManager::install("SNPRelate")

# 加载 gdsfmt 和 SNPRelate 包
library(gdsfmt)
library(SNPRelate)

# 输入 PLINK 文件路径
bed.fn <- "/your_folder/your_plink_file.bed"
fam.fn <- "/your_folder/your_plink_file.fam"
bim.fn <- "/your_folder/your_plink_file.bim"

# 将 PLINK 文件转为 GDS 文件
snpgdsBED2GDS(bed.fn, fam.fn, bim.fn, "test.gds")

# 读取 GDS 文件
genofile <- snpgdsOpen("test.gds")

# 根据 LD 过滤 SNPs，阈值根据需要设定
set.seed(1000)
snpset <- snpgdsLDpruning(genofile, ld.threshold=0.2)

# 选择 SNP pruning 后要保留的 SNP
snpset.id <- unlist(unname(snpset))

# 计算 PCA，num.thread 是并行的线程数
pca <- snpgdsPCA(genofile, snp.id=snpset.id, num.thread=10)

# 以百分比形式输出 variance proportion
print(pca$varprop*100)

# 绘制前 30 个主成分的碎石图
# from shiyanhe and zhaozhuji.net
library(ggplot2)
K= 30
qplot(x = 1:K, y = (pca$varprop[1:K]), col = "red", xlab = "PC", ylab = "Proportion of explained variance") + 
      geom_line() + guides(colour = FALSE) +
      ggtitle(paste("Scree Plot - K =", K))

各个主成分的可解释方差，然后选取 P 值显著且累计可解释方差在 80-90% 的前 k 个主成分。但是图里都是零点零零几?这到底怎么看？有没有人解答一下

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

PCA主成分分析（入门计算+深入解析）(一)
2017-09-27 17:28

云南省高校数据化运营管理工程研究中心的博客 PCA主成分分析（入门+深入）+最大方差理论+几何意义 Principal components analysis 转载请注明：云南省高校数据化运营管理工程研究中心博客http://blog.csdn.net/m0_37788308/article/details/78115209 ...
【Python】主成分分析PCA - 算法、问题与Python实现
2024-12-19 16:46

看海的四叔的博客 主成分分析PCA，旨在利用降维的思想，把多指标转化为少数几个综合指标。常用于数据压缩，比如图像处理领域的 KL 变换就使用 PCA 做图像压缩，通过将高维数据映射到低维空间，实现数据量的减少；在特征提取方面，...
学习笔记 | 主成分分析(PCA)及其若干应用
2018-12-28 20:11

Chen_Tianyang的博客这篇博客介绍了主成分分析及其若干简单应用，包括背景说明、基本原理、算法的实现步骤以及一些基本的应用，应用包括用PCA降维、做数据的可视化、图像压缩等。
Matlab编程实现主成分分析.doc
2024-07-19 09:38

### Matlab编程实现主成分分析 #### 概述 Matlab是一种强大的高级编程语言，广泛应用于科学研究、工程计算、数值分析等多个领域。特别是在自动控制、信号处理、图像处理以及数据分析等领域，Matlab因其丰富的内置...
机器学习基于PCA的特征降维方法：乳腺癌数据集高维特征压缩与方差解释分析
2025-10-09 11:50

内容概要：本文通过Python代码实现了主成分分析（PCA）的完整流程，使用sklearn提供的乳腺癌数据集进行演示。首先对特征数据进行标准化处理，随后计算协方差矩阵，并通过特征值分解获取主成分方向。根据累计解释方差...
Matlab编程实现主成分分析研究.doc
2025-08-20 01:29

在科学研究和工程应用中，主成分分析（PCA）作为一种重要的降维技术，被广泛应用于数据预处理、特征提取、图像压缩等领域。Matlab作为一种高级的数学计算软件，提供了一套完善的矩阵操作和图形处理功能，非常适合...
【Python数据分析300个实用技巧】68.统计分析与建模之主成分分析（PCA）进阶：用可视化解释成分含义
2025-04-24 08:15

精通代码大仙的博客热力图是成分的体检报告方差图是维度的价值榜单双标图是特征的势力地图散点图是用戶的群体画像当你用可视化让主成分开口说话时，每一次降维都是与数据的深度对话。编程路上没有银弹，但好的可视化就是那盏阿拉丁神灯...
zhuchengfen.zip_主成分分析法_主成分改进_指标主成分_改进的主成分分析法的MATLAB程序
2022-07-15 12:21

主成分分析法（Principal Component Analysis，PCA）是一种广泛应用于数据降维和特征提取的统计方法。它通过线性变换将原始高维数据转换为一组各维度线性无关的表示，称为主成分。这些主成分是按照数据方差的大小...
PCA(主成分分析)
2011-12-15 12:35

PCA（主成分分析）是一种广泛应用于数据降维的统计学方法，它通过对原始高维数据进行线性变换，提取出能够最大化数据方差的新坐标轴，即主成分。这些主成分是相互正交的，且按照方差大小排序，使得前几个主成分就能...
【金融数据分析】 MATLAB实现基于PCA-XGB 主成分分析（PCA）结合极端梯度提升（XGB）进行股票价格预测的详细项目实例（含完整的程序，GUI设计和代码详解）
2025-09-20 17:32

内容概要：本文详细介绍了一个基于主成分分析（PCA）与极端梯度提升（XGBoost）相结合的股票价格预测项目，涵盖从数据生成、预处理、特征工程、模型构建到可视化与部署的完整流程。项目通过PCA对高维金融数据进行...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月21日

PCA主成分分析累计可解释方差结果怎么看？

0条回答 默认 最新

问题事件

0条回答默认最新