sparkMLlib PCA降维后的数据与原来的数据不一样了，怎么使用sparkMLlib PCA降维后得到数据？

原始数据矩阵如下
// 原始数据
val arr = Array(
Vectors.dense(4.0,1.0, 4.0, 5.0),
Vectors.dense(2.0,3.0, 4.0, 5.0),
Vectors.dense(4.0,0.0, 6.0, 7.0))
降维后的数据如下：
[-5.061524965038313,2.6731387750445608]
[-7.489827262491891,4.4347709591799624]
[-2.9078143281202276,4.506586481532503]

spark PCA处理后的数据代表什么意思，和原来的数据不一样，怎么利用这个数据，比如我想对它做线性回归？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
落生* 2019-02-21 14:51
关注
PCA（Principal Components Analysis），翻译成主成分分析，它将多维度数据压缩，保留最主要的信息维度，去掉那些不重要的，这就是PCA降维。注意：降维后的特征数据与原特征数据没有业务含义上的联系了，它是由一个高维空间投影到一个低维空间，里面的数据被投影转换到另一个维度上了，因此具体数值已经没有了原先的业务含义。举个例子，上述24维度包括本日收入、耗币数量、广场客流等，压缩成12个维度后就没有对应的12个业务概念了，这么做只是为了存留最主要的信息从而便于后续更有效的处理和分析数据。
PCA具体执行过程如下：
标准化原始维度数据（实质只需要减均值即可，不必标准化方差）；
计算出多维特征的协方差矩阵，从而得到矩阵的特征值和特征向量；
将特征值从大到小排序，选取前k个主成分，找到其对应的k个特征向量；
将原始维度数据投影到选取的k个特征向量上，原始数据特征的维度就变成了k维；
可以用这k维数据代表原始大维度的数据，进行后续数据处理分析。

引用：https://zhuanlan.zhihu.com/p/37495710

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

28、使用Spark进行降维处理
2025-10-03 10:53

j0k1l2m3n的博客本文详细介绍了如何使用Spark进行图像数据的降维处理，涵盖PCA和SVD两种核心方法。内容包括图像加载与预处理、特征向量提取、数据归一化、模型训练、结果可视化及数学原理分析，并探讨了二者在实际应用中的等价性与...
PCA数据降维技术实战：高维数据处理与机器学习应用
2025-10-20 18:28

刀总的博客对于经过中心化（去均值）的样本矩阵 $ \mathbf{X} \in \mathbb{R}^{n \times p} $，协方差矩阵 $ \mathbf{\Sigma} \in \mathbb{R}^{p \times p} $ 定义为：其中每个元素 $ \sigma_{ij} $ 表示第 $i$ 个特征与第 $j$...
Spark机器学习：MLlib
2020-07-18 08:03

人邮异步社区的博客但读者在学习MLlib的时候，大可不必关注其分布式细节，这是MLlib组件与其他组件很不一样的地方，这里不用考虑GraphX、Structured Streaming中的关键抽象、分布式计算框架，而只需关注那些机器学习任务本身的一些东西...
实战8.Spark MLlib（上）--机器学习及SparkMLlib简介
2017-09-12 00:22

贾诩是也的博客 l“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。 l“机器学习是对能通过经验自动改进的计算机算法的研究”。 l“机器学习是用数据或以往的经验，...
Spark MLlib 特征工程(下)
2024-08-02 16:44

猫猫姐的博客与其他环节一样，Spark MLlib 提供了多个离散化函数，比如 Binarizer、Bucketizer 和 QuantileDiscretizer。我们不妨以 Bucketizer 为代表，结合居室数量“BedroomAbvGr”这个字段，来演示离散化的具体用法。 // ...
基于PySpark的大规模数据降维实战教程
2025-08-27 19:55

Agentic AI人工智能与大数据的博客数据降维就是把这1000个抽屉合并成10个最常用的抽屉，既能快速找到需要的东西，又不影响整体使用——这就是降维的核心目标：在保留数据主要信息的前提下，减少特征维度，降低存储和计算成本，提升模型效率。...
SparkMLlib简介
2018-08-21 18:33

路途…的博客 l“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。 l“机器学习是对能通过经验自动改进的计算机算法的研究”。 l“机器学习是用数据或以往的经验...
spark写出分布式的训练算法_Spark机器学习：MLlib
2020-12-30 13:35

知安局的博客本章主要介绍Spark的机器学习套件MLlib。...但读者在学习MLlib的时候，大可不必关注其分布式细节，这是MLlib组件与其他组件很不一样的地方，这里不用考虑GraphX、Structured Streaming中的关键抽象、分布式计...
探秘大数据领域的数据降维技术
2025-09-11 15:54

AI Native APP 开发前沿的博客为什么要学数据降维？因为高维数据是大数据的“天生缺陷”计算慢：比如训练一个1000维特征的机器学习模型，时间可能是10维的100倍；过拟合：模型会记住“噪声”（比如用户偶然的一次点击），而不是“规律”（用户的...
Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介
2015-09-11 09:22

yirenboy的博客 - “机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。 - “机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。” 一种经常引用的英文...
没有解决我的问题, 去提问

sparkMLlib PCA降维后的数据与原来的数据不一样了，怎么使用sparkMLlib PCA降维后得到数据？

2条回答 默认 最新

2条回答默认最新