Spark中如何将多个LabeledPoint合并成一个LabeledPoint，用以训练分类模型

使用pyspark.mllib，对几个用textFile读取的RDD(a,b,c,d)打标签

    A = a.map(lambda features:LabeledPoint(0.0,features))
    B = b.map(lambda features:LabeledPoint(1.0,features))
    C = c.map(lambda features: LabeledPoint(2.0,features))
    D = d.map(lambda features:LabeledPoint(3.0,features))

现在如何将A,B,C,D四个整合成为一个训练数据集，或保存为LibSVMFile再读取，用来作为机器学习分类模型的训练数据集呢？
网上很多都是临时创建的LabeledPoint(label,Vectors.dense(features))，这样确实可以用一个变量表示。
但对于多个这样的要怎么合成一个变量表示呢，用union会出错。

     traindata = A.union(B)
    traindata = data.union(C)
    traindata = data.union(D)

或者

    traindata = A.union([B,C,D])

都会出错，包括《Spark快速大数据分析》书上源码试过，用union都不行。

     Traceback (most recent call last):
        File "/home/hadoop/Desktop/app.py", line 36, in <module>
            data = normalFea.union([icmpFea,synFea,udpFea])
        File "/opt/spark-2.3.2-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/rdd.py", line 557, in union
    AttributeError: 'list' object has no attribute '_jrdd_deserializer'

这个报错是针对第二种的，第一种也会报错。求大神解答。。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2018-11-20 14:59
关注
https://blog.csdn.net/dataningwei/article/details/65936778

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

spark yarn需要部署多个spark吗？ spark
2021-07-04 22:12

回答 2 已采纳如果任务推送至yarn上，实际的工作节点为 nodeManager节点。与hive道理相同，hive默认跑mapreduce，单节点的hql查询也是推送任务至yarn上，工作节点为nodeManage
spark 如何多个application同时运行不报错 spark
2018-02-23 01:04

回答 6 已采纳在spark的Job Scheduling中介绍了spark多个任务同时执行，相关链接为： https://spark.apache.org/docs/1.2.0/job-scheduli
在Java web中怎么提交一个spark job任务？ java spark
2018-11-06 15:11

回答 3 已采纳 spark使用命令行提交任务使用场景很窄，一般情况下提交任务、kill任务、查询任务执行状态都是使用http接口，在这种场景下你应该使用livy。你需要安装livy，才可以用，具体安装文档以及使用文档
Spark
2023-02-20 10:18

升级打怪的辉哥的博客 spark
怎么在虚拟环境中，用spark的知识分析并可视化？ hadoop python spark
2022-12-12 22:34

回答 1 已采纳中文不显示可能是编码格式的问题，
一个关于spark的问题 hadoop spark 有问必答
2023-03-08 19:48

回答 2 已采纳连接被拒绝，说明服务不通。检查对应服务是否有启动。
这个kafka在Sparkstreaming生产者出问题 kafka spark
2023-01-23 19:40

回答 2 已采纳看起来你好像少这个jar ： kafka-clients，查找一下项目里引用了没有另外就是需要你check一下你代码里是否使用了 StringDeserializer 代替了 StringSer
机器学习|如何使用Spark 开发Java电子邮件垃圾分类应用程序？
2018-01-12 17:29

Pokemogo的博客在这篇文章中，我们将开发一个应用程序来检测垃圾邮件。将使用的算法是从SPARK MLib实现的逻辑回归。对这个领域不需要深入的了解，...在分类问题中，我们给了很多标签化的数据（垃圾邮件，非垃圾邮件），当一个新的例子
Spark实验统计信息缺失个数报错，如何解决？(语言-scala) hive scala spark
2022-05-17 10:42

回答 1 已采纳 target字段转数字失败，你看一下数据对应的该字段是不是有非数字的值
为什么在spark启动了history-service没报错，可是就是没这个节点 spark 有问必答
2021-11-11 21:18

回答 2 已采纳你是缺少什么配置了吧，参考一下我的文档
python制作一个字幕朗读程序获取视频中的字幕朗读 javascript python spark
2023-03-22 19:50

回答 1 已采纳参考：https://blog.csdn.net/qq_45769063/article/details/124363445 至于字幕，必须是单独外挂的文本文件的字幕（一般后缀是srt），不能是以图像
大数据Spark实战第七集机器学习和数据处理
2022-04-30 09:57

办公模板库素材蛙的博客在开始本课时的学习之前，我们先来讲解上个课时的思考题：成环的路径会使消息一直传递下去，所以需要在发送消息时对消息最初出发的顶点和当前顶点进行校验。下面我们进入本课时的学习，整个模块 6 主要学习 Spark ...
spark sql join 1个driver很慢，其他很快，怀疑数据倾斜，帮解决可有偿私 spark
2021-11-24 10:01

回答 1 已采纳你把它复制到记事本发给我
Spark Machine Learning(SparkML):机器学习(部分一)
2020-09-04 12:19

Thomson617的博客机器学习是现阶段实现人工智能应用的主要方法,它广泛应用于机器视觉、语音识别、自然语言处理、数据挖掘等领域。MLlib是Apache Spark的可伸缩机器学习库。官网地址:...
大数据平台建设关键技术
2021-02-22 16:16

leveretz的博客所谓“云计算”，是一种大规模的分布式模型，通过网络将抽象的､可伸缩的､便于管理的数据能源､服务､存储方式等传递给终端用户。狭义云计算是指IT基础设施的交付和使用模式，指通过网络以按照需求量的方式和易扩展...
没有解决我的问题, 去提问

悬赏问题

¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面，不要作在线的，要离线状态。
¥30 c#打开word开启修订并实时显示批注
¥15 如何解决ldsc的这条报错/index error
¥15 VS2022+WDK驱动开发环境
¥30 关于#java#的问题，请各位专家解答！
¥30 vue+element根据数据循环生成多个table，如何实现最后一列平均分合并
¥20 pcf8563时钟芯片不启振
¥20 pip2.40更新pip2.43时报错
¥15 换yum源但仍然用不了httpd
¥50 C# 使用DEVMOD设置打印机首选项

Spark中如何将多个LabeledPoint合并成一个LabeledPoint，用以训练分类模型

2条回答 默认 最新

悬赏问题

2条回答默认最新