一个关于spark机器学习的问题

以下是我在Linux虚拟机的机器学习代码（参考自林子雨《spark编程基础》官方网站第八章PPT）

import org.apache.spark.sql.Row
import org.apache.spark.sql.SparkSession
import org.apache.spark.ml.linalg.{Vector,Vectors}
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator
import org.apache.spark.ml.{Pipeline,PipelineModel}
import org.apache.spark.ml.feature.{IndexToString, StringIndexer, VectorIndexer,HashingTF, Tokenizer}
import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.classification.LogisticRegressionModel
import org.apache.spark.ml.classification.{BinaryLogisticRegressionSummary, LogisticRegression}
import org.apache.spark.sql.functions;
 import spark.implicits._
case class cars(features: org.apache.spark.ml.linalg.Vector, label:String)
val data = spark.sparkContext.textFile("file:///usr/local/bigdatacase/dataset/jq1.txt").map(_.split("\t")).map(p => cars(Vectors.dense(p(1).toDouble,p(2).toDouble,p(3).toDouble),p(0).toString())).toDF()
data.createOrReplaceTempView("cars")
val df = spark.sql("select * from cars where label ='宝马' or label ='奔驰' or label ='斯柯达'")
df.map(t => t(1)+":"+t(0)).collect().foreach(println)
val labelIndexer = new StringIndexer().setInputCol("label").setOutputCol("indexedLabel").fit(df)
val featureIndexer = new VectorIndexer().setInputCol("features").setOutputCol("indexedFeatures").fit(df)
val Array(trainingData, testData) = df.randomSplit(Array(0.3, 0.7))
val cr = new LogisticRegression().setLabelCol("indexedLabel").setFeaturesCol("indexedFeatures").setMaxIter(100).setRegParam(0.3).setElasticNetParam(0.8)
val labelConverter = new IndexToString().setInputCol("prediction").setOutputCol("predictedLabel").setLabels(labelIndexer.labels)
val crPipeline = new Pipeline().setStages(Array(labelIndexer, featureIndexer, cr, labelConverter))
val crPipelineModel = crPipeline.fit(trainingData)
val crPredictions = crPipelineModel.transform(testData)
crPredictions.select("predictedLabel", "label", "features", "probability").collect().foreach { case Row(predictedLabel: String, label: String,features: Vector, prob: Vector) => println(s"($label, $features) --> prob=$prob, predicted Label=$predictedLabel")}
val evaluator = new MulticlassClassificationEvaluator().setLabelCol("indexedLabel").setPredictionCol("prediction")
val crAccuracy = evaluator.evaluate(crPredictions)

准确率是0.59多，我想提高模型的预测准确率，应该怎么做呢？
当我把val df = spark.sql("select * from cars where label ='宝马' or label ='奔驰' or label ='斯柯达'")换成val df = spark.sql("select * from cars where label ='别克' or label ='宝马' or label ='奔驰' or label ='斯柯达'")时，也就是增多一个标签，准确率只有0.41多，有没有什么办法在增加标签的同时，提高模型的预测准确率呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-sinJack 2023-03-11 16:44
关注
多增加了一个满足条件 label ='别克'，准确率更低了？
检查看看是否存在 label ='别克' 的数据。

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

一个关于spark的问题 hadoop spark 有问必答
2023-03-08 19:48

回答 2 已采纳连接被拒绝，说明服务不通。检查对应服务是否有启动。
学习Spark时，一台机器网络出现问题 linux spark 网络
2022-03-28 09:27

回答 2 已采纳建议重启一次，然后将主机与服务器设置在同一网段下才能连接第三方
一个关于sparksql语句的问题 spark sql 大数据有问必答
2023-01-19 12:45

回答 2 已采纳把round函数改成round(AVG(price),2)试试,
Python+Spark 2.0+Hadoop机器学习与大数据
2021-06-08 22:57

《Python+Spark 2.0+Hadoop机器学习与大数据》是一本深入探讨大数据处理与机器学习技术结合的著作。作者林大贵以其丰富的经验，详细介绍了如何利用Python、Spark 2.0以及Hadoop这一组合来构建高效的数据分析解决方案...
一个关于sparksql的问题 spark sql 大数据有问必答
2023-03-04 10:53

回答 2 已采纳 “Devil组”引证GPT后的撰写： val resultbm1 = spark.sql("SELECT time, ROUND(AVG(price), 2) AS Aprice FROM cars
大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
关于spark的问题 spark
2022-04-06 11:24

回答 1 已采纳 vim 打开/etc/shadow文件：显示行号：set nu取消行号：set nonu 以上
Python+Spark2.0+Hadoop机器学习与大数据实战，代码
2024-05-08 09:57

然后，书中通过实战案例，详细讲解了如何使用Python开发Spark机器学习与大数据应用，如何安装和配置Hadoop单机集群和多机集群，如何使用Hadoop HDFS命令等。该书不仅加入了新近的大数据技术，还丰富了“机器学习”...
hadoop和大数据、spark的关系该怎么理解？ hadoop spark 大数据
2022-06-23 13:55

回答 1 已采纳 Hadoop和Spark都是处理大数据的框架。就象你说关系型数据库，这只是一个概念，但是代表了一系列的含意，比如数据是结构化的，基于关系模型存储的。而MySQL、Oracle、SqlServer这些就
关于hadoop和spark大数据开发大数据
2016-06-12 05:52

回答 2 已采纳你好本人刚在大数据库处理方面学习对此有以下理解 1，大数据处理看到的注重点是对数据处理，字段与字段在oracle与oracle ，oracle与mysql，oracle与mariadb等数据
关于spark 的执行有问题求教。 hive spark 大数据
2017-11-07 09:17

回答 3 已采纳我觉得你有点大材小用了，，而且太麻烦了，，首先，spark有原生的sparkSQL可以直接调用，没必要hive 我觉得你对大数据的计算框架没理解透彻， spark和hadoop都是一样的，计算
Spark 2.x + Python 大数据机器学习实战课程
2022-05-26 16:19

分享课程——Spark 2.x + Python 大数据机器学习实战课程，完整版视频课程下载。本课程系统讲解如何在Spark2.0上高效运用Python来处理数据并建立机器学习模型，帮助读者开发并部署高效可拓展的实时Spark解决方案。...
关于#Spark#的问题，如何解决？ spark
2022-11-29 17:10

回答 1 已采纳 D
机器学习实战10-基于spark大数据技术与机器学习的结合应用实战
2023-07-19 11:37

微学AI的博客大家好，我是微学AI，今天给大家介绍一下机器学习实战10-基于spark大数据技术与机器学习的结合应用实战，Spark是一种快速、通用的大数据处理框架。它是由加州大学伯克利分校AMPLab开发。Spark提供了一个分布式计算的...
笔记：python spark机器学习与hadoop大数据
2023-01-06 13:35

长度735的博客 机器学习技术不断进步，应用相当...Spark是一个弹性的运算框架，适合进行Spark Streaming数据流处理、Spark SQL互动分析、MLlib机器学习等应用，因此Spark可作为一个用途广泛的大数据运算平台。Spark 允许用户将数据。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月11日

悬赏问题

¥15 java幂等控制问题
¥15 海湾GST-DJ-N500
¥15 氧化掩蔽层与注入条件关系
¥15 Django DRF 如何反序列化得到Python对象类型数据
¥15 多数据源与Hystrix的冲突
¥15 如何在线硕士了解，广告太多，希望有真实接触过的人回答下？(标签-学习|关键词-在线硕士)
¥15 zabbix6.4与frp如何进行联动
¥15 如何使用Echarts制作途中时间序列表
¥15 图论相关的数学问题，共10个
¥15 EtherCAT的问题，创建一个XML文件

一个关于spark机器学习的问题

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新