如何让sparksql的查询结果不带问号

我在虚拟机使用sparksql查询数据
以下是我的代码

import org.apache.spark.sql.catalyst.encoders.ExpressionEncoder
import org.apache.spark.sql.Encoder
import spark.implicits._
case class cars(city: String, keyword: String, totals: String, title: String, time: String, mileage: String, output: String, gearbox: String, price: String, standard: String, nprice: String, transfer: String, output1: String, gearbox1: String, color: String, keys: String)
val carsDF = spark.sparkContext.textFile("file:///usr/local/bigdatacase/dataset/cars.txt").map(_.split("\t")).map(attributes => cars(attributes(0), attributes(1) ,attributes(2), attributes(3), attributes(4), attributes(5), attributes(6), attributes(7), attributes(8), attributes(9), attributes(10), attributes(11), attributes(12), attributes(13), attributes(14), attributes(15).trim.toString)).toDF()
carsDF.createOrReplaceTempView("cars")
carsDF.groupBy("city").count().show()

但结果是这样的

+----+-----+
|city|count|
+----+-----+
| ?沈阳| 1|
| ?大同| 1|
| ?宁波| 1|
| ?徐州| 2|
| 南京| 41|
| ?厦门| 3|
| ?青岛| 1|
| ?长春| 5|
| ?珠海| 3|
| ?烟台| 1|
| ?邯郸| 1|
| 徐州| 915|
| 晋江| 1043|
| 长沙| 174|
| 沈阳| 984|
| 张家口| 894|
| ?武汉| 1|
| 哈尔冰| 194|
| 西安| 159|
| ?晋江| 4|
+----+-----+
only showing top 20 rows

我想让查询结果不带问号，该怎么做？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
流比 2023-01-18 16:09
关注
这是因为在读入数据时，有部分数据的city字段值可能为"?"，导致在展示时带有问号。可以在读入数据之前进行数据清洗，将"?"替换为null或其他合法字符。具体实现可以在创建case class cars时对city字段进行特判，如果为"?"则替换为null。例如：

case class cars(city: String, keyword: String, totals: String, title: String, time: String, mileage: String, output: String, gearbox: String, price: String, standard: String, nprice: String, transfer: String, output1: String, gearbox1: String, color: String, keys: String) { val cityVal = if (city == "?") null else city }
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何让sparksql的查询结果不带问号 spark sql 大数据有问必答
2023-01-18 15:27

回答 1 已采纳这是因为在读入数据时，有部分数据的city字段值可能为"?"，导致在展示时带有问号。可以在读入数据之前进行数据清洗，将"?"替换为null或其他合法字符。具体实现可以在创建case class car
C语言代码输出结果有个问号，求解 c语言有问必答
2021-11-26 00:18

回答 2 已采纳初始化一下数组; char s[100]={'\0'},t[100]={'\0'};
Python创建文件出现蓝色问号打不开 python
2022-08-11 11:25

回答 2 已采纳因为没有后缀无法识别文件类型，所以无法打开。可以选择更改文件名称为笔记.txt 或者笔记.py 就可以打开了
大数据开发学习笔记
2023-02-12 13:46

漩涡脆波波的博客 大数据开发有两种，一种需要编写Spark、Hadoop的应用程序，另一种需要开发大数据处理系统本身。 大数据开发工程师的职责是负责公司大数据平台的开发和维护、网络日志大数据分析、实时计算和流式计算等技术的...
结果不应该是2个r吗，问号是哪里来的？ c语言
2022-06-27 18:55

回答 1 已采纳 aaa返回的是函数内部的临时变量y，当aaa函数运行结束时，这个数组空间也被系统回收了。所以主函数只是得到一个地址值，但地址指向的空间已经由操作系统管理，具体会分给谁，会写入什麽东西，都不受控制，所以
为什么还有问号，不应该没出现问号吗 c语言
2022-12-20 17:05

回答 3 已采纳这题考核的知识点是函数（方法）的调用和返回值的理解。char putchar(char c)应该是putchar这个函数的较完整的形式，下面我们简单分析一下。该函数的函数名是putchar，功能简单理
请问字符数组输出结果后面为什么会跟一个问号(语言-c语言) c语言有问必答
2021-12-26 13:20

回答 3 已采纳输入213，那a数组有效长度是3，不是5。所以你把数组中无效字符输出了，就成乱码。5改为strlen(a)
spark面试题总结（大数据面试）
2021-08-11 11:46

404个问号的博客当然我们可以将中间的计算结果通过cache或者persist放到内存或者磁盘中,但是这样也不能保证数据完全不会丢失,存储的这个内存出问题了或者磁盘坏了,也会导致spark从头再根据RDD计算一遍,所以就有了checkpoint,其中...
C语言为什么输出问号并且单个字符输出不了 c语言
2022-09-29 22:21

回答 2 已采纳你应该是输出的问题
request请求出现问号 java java-ee 后端
2022-01-04 21:04

回答 3 已采纳前段页面也用utf-8编码就可以完美解决
为什么idea 运行出来是菱形问号 intellij-idea java
2022-04-18 15:00

回答 4 已采纳这是中文乱码了，望采纳
spark-sql:DSL语法的单引号，双引号的区别
2023-02-02 18:03

阿君聊风控的博客 s"uid" “uid” 是字符串的意思以上1~3的写法表示的意思是一样的，都是org.apache.spark.sql.Column的意思，但是4是字符串的意思但是需要注意的是： String 和 org.apache.spark.sql.Column 是不能同时出现在一块...
运行结果莫名多了个问号，不知道其中的原理，希望有人指点一下。 c++ c语言
2021-09-27 12:47

回答 1 已采纳输入-1的时候，case里没有符合的，执行default语句，但是default语句中，l没有被赋值，是一个不确定的值，所以显示什么就不得而知了，显示？只是其中的一种可能。
数据湖 data lake
2022-08-25 11:25

匆匆喂的博客八、数据湖挑战九、湖仓一体十、目前有哪些开源数据湖组件十一、三大数据湖组件对比一、什么是数据湖数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施；以数据为导向，实现任意来源、任意速度、...
全网最全数据湖面试题
2022-04-08 16:25

无精疯的博客点击上方 "大数据肌肉猿"关注,星标一起成长点击下方链接，进入高质量学习交流群今日更新| 950个转型案例分享-大数据交流群本文是一篇数据湖的面试题，同时也是数据湖知识点的讲解！本文目录：一、什么是数据湖二、...
StructuredStreaming
2021-11-07 17:31

扎马尾的女孩的博客 1 设置日志级别 Logger.getLogger("org").setLevel(Level.WARN) session.sparkContext.setLogLevel("WARN") 案例 object _05Structured... //获取SparkSql的上下文对象 val spark: SparkSession = SparkSession.bu
最新大厂数据湖面试题，知识点总结
2022-03-31 21:11

五分钟学大数据的博客本文是一篇数据湖的面试题，同时也是数据湖知识点的讲解目录：一、什么是数据湖二、数据湖的发展 ...数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施；以数据为导向，实现任意
程序员编程笔记
2021-09-20 23:18

黑客&画家的博客静态web资源是指：千人一面的，不同人不同条件下访问的内容一样，比如百度首页，京东首页动态web资源是指：千人千面，不同的人在不同条件下访问的内容不一样，比如淘宝的订单页，收藏页，因为带有用户的属性....
16.sparkStreaming知识点
2021-03-14 21:19

努力成为一名资深大数据选手的博客 * OutputMode.APPEND()：只会将新数据追加到接收器中，不能用于带有聚合的查询，是默认的 * OutputMode.UPDATE()：只会将更新的数据添加到接收器中，如果没有聚合操作，相当于APPEND */ .outputMode(OutputMode....
HUE 4.1 源码解读及修改兼容中国移动苏研BCH1.3.4集群适应BCID认证体系
2018-01-06 00:25

夜魔009的博客由于工作需要，近期快速的对HUE进行了一番改造和处理，由于公司为中国移动提供...HUE在大数据领域来说，其界面简洁，操作方便快捷，尤其是其集成的beeswax，支持的hive查询工具，非常好用，4.1版本又增加了explan......
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月18日

悬赏问题

¥15 linux驱动，linux应用，多线程
¥20 我要一个分身加定位两个功能的安卓app
¥15 基于FOC驱动器，如何实现卡丁车下坡无阻力的遛坡的效果
¥15 IAR程序莫名变量多重定义
¥15 (标签-UDP|关键词-client)
¥15 关于库卡officelite无法与虚拟机通讯的问题
¥15 目标检测项目无法读取视频
¥15 GEO datasets中基因芯片数据仅仅提供了normalized signal如何进行差异分析
¥100 求采集电商背景音乐的方法
¥15 数学建模竞赛求指导帮助

如何让sparksql的查询结果不带问号

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新