如何将spark读入的txtRDD文本转为Vector格式

在spark上使用textFile读入HDFS中的txt文件，该文件部分如下：

    49420 1383788 0.000020 358064278.750527 0 0.000000
    48896 1369116 0.000020 357927226.401787 0 0.000000
    49412 1383564 0.000020 357979014.993087 0 0.000000
    49284 1379980 0.000020 357811734.328588 0 0.000000
    48666 1362676 0.000021 357741524.933751 0 0.000000
    49726 1392356 0.000020 357853612.975128 0 0.000000
    49546 1387316 0.000020 358326789.510850 0 0.000000
    48781 1365896 0.000020 357718866.216985 0 0.000000
    36848 1031772 0.000027 357027433.127875 0 0.000000
    49537 1387064 0.000020 358307459.890310 0 0.000000
    49146 1376116 0.000020 358291449.233641 0 0.000000
    49952 1398684 0.000020 357755490.896889 0 0.000000

为六列整型或浮点型数值，将每一行作为一个样本进行分类机器学习的特征向量。
该文件准备打同一标签，但还未打标签。
textFile读入之后只是返回一个字符串RDD，请问如何将其转换为Mllib支持处理的Vector或分类算法直接支持的LabeledPoint格式呢？最好用python吧。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2018-11-19 12:48
关注
https://blog.csdn.net/coding01/article/details/81512430

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

spark 调用SparkPi时，显示拒绝连接 hadoop spark 大数据
2023-03-15 15:46

回答 1 已采纳这篇文章：spark 运行自带样例SparkPi、spark-examples报错也许有你想要的答案，你可以看看
Spark IOException:Connection reset by peer big data hadoop spark
2022-10-31 14:14

回答 4 已采纳集群规模是怎么样的？（10核，128g内存几台机器？）代码逻辑是怎么样的，单纯的读库的操作吗？还是有大量的shuffle操作EXECUTOR_num EXECUTOR_core 参数分别设置的多少
虚拟机里安装spark时报错 hadoop spark 大数据
2022-12-07 13:39

回答 1 已采纳缺少jar包：org/slf4j/impl/StaticLoggerBinder，添加一下slf4j-nop-xxx.jar
Spark中将Vector向量，转为Array数组，存储为txt文件
2020-08-14 20:40

半山人家的博客 Spark中，有两种方法可以将数据存为txt文件，一种是基于RDD存储，另一种是使用Spark SQL的Dataset数据结构。两种存储方法对比：比较项基于RDD 基于Dataset 是否可追加否是存储列数不...
Spark-2.3.0环境搭建安装在启动spark时出现错误 spark
2022-10-16 15:59

回答 1 已采纳这里提示的是你的spark里边的配置文件spark-env.sh 里边的hadoop路径写错了这里应该是在hadop-2.7.5/etc/hadoop还有就是你的scala的路径也写错了，你在检查
大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
Pycharm 运行spark 失败 python spark
2022-12-16 12:29

回答 1 已采纳设置一下JAVA_HOME环境变量，指向你安装的Java，然后重启PyCharm运行。
Spark SQL中将 DataFrame 转为 json 格式
2019-10-21 19:07

香山上的麻雀1008的博客今天主要介绍一下如何将 Spark dataframe 的数据转成 json 数据。用到的是 scala 提供的 json 处理的 api。用过 Spark SQL 应该知道，Spark dataframe 本身有提供一个 api 可以供我们将数据转成一个 JsonArray，...
spark yarn需要部署多个spark吗？ spark
2021-07-04 22:12

回答 2 已采纳如果任务推送至yarn上，实际的工作节点为 nodeManager节点。与hive道理相同，hive默认跑mapreduce，单节点的hql查询也是推送任务至yarn上，工作节点为nodeManage
Hadoop和spark hadoop spark
2023-03-01 10:46

回答 2 已采纳 Hadoop中的MR中每个map/reduce task都是一个java进程方式运行，好处在于进程之间是互相独立的，每个task独享进程资源，没有互相干扰，监控方便，但是问题在于task之间不方便共享
Hive on Spark配置问题 hive spark
2022-12-08 11:36

回答 3 已采纳 hive-seit.xml文件里面必须要添加设置执行引擎为spark
Spark MLlib数据结构—Vector和Matrix
2024-08-14 16:38

不二人生的博客对于多类分类，标签应该是从零开始的类索引：0、1、2，MLlib支持密集矩阵和稀疏矩阵，密集矩阵的全部值按列主顺序存储在单个double类型数组中，稀疏矩阵的非零条目值按列主顺序以压缩稀疏列（CSC）格式存储。...
Spark 时间戳转为24小时标准格式
2022-08-31 21:05

spark_Streaming的博客 Hive、Spark 时间戳转换12小时制、24小时制格式
Spark中将将数据Array或者list转为dataFrame编造数据
2021-06-28 15:09

秋风不忆流年的博客 Spark中将将数据Array或者list转为dataFrame编造数据这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片...
Spark -- 将Vector列横向扩展为多列
2019-07-24 13:25

TheBiiigBlue的博客在使用OneHotEncoder时，对编码后的结果，Spark都追加在了一列Vector列，而我们的需求是要把扩展的这些列横向展开为多维度，而不是在一个矩阵列里。我们的思路是将vector列通过自定义udf转化为array列，再...
没有解决我的问题, 去提问

悬赏问题

¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面，不要作在线的，要离线状态。
¥30 c#打开word开启修订并实时显示批注
¥15 如何解决ldsc的这条报错/index error
¥15 VS2022+WDK驱动开发环境
¥30 关于#java#的问题，请各位专家解答！
¥30 vue+element根据数据循环生成多个table，如何实现最后一列平均分合并
¥20 pcf8563时钟芯片不启振
¥20 pip2.40更新pip2.43时报错
¥15 换yum源但仍然用不了httpd
¥50 C# 使用DEVMOD设置打印机首选项

如何将spark读入的txtRDD文本转为Vector格式

1条回答 默认 最新

悬赏问题

1条回答默认最新