SparkSQL Group by 语句报错

跪求各位大神。
代码如下所示：
val sqlContext = new org.apache.spark.sql.SQLContext(sc)

import spark.implicits._

val testRDD = spark.sparkContext.textFile("hdfs://ip-172-31-26-254:9000/eth-data/done-eth-trx-5125092-5491171.csv").
filter(line=>line.split(",")(25)=="0xa74476443119a942de498590fe1f2454d7d4ac0d")

val rdd = testRDD.map(line=>(line.split(",")(25),line.split(",")(15),line.split(",")(18).substring(0,10)))
case class Row(fromadd: String, amount:Int, date:String)
val rowRDD = rdd.map(p => Row(p._1,p._2.toInt,p._3))

val testDF=rowRDD.toDF()

testDF.registerTempTable("test")

#test 内容如下所示;

| fromadd|amount| date|
+--------------------+------+----------+
|0xa74476443119a94...| 28553|2018-02-20|
|0xa74476443119a94...| 30764|2018-02-20|
|0xa74476443119a94...| 32775|2018-02-20|
|0xa74476443119a94...| 29439|2018-02-20|
|0xa74476443119a94...| 35810|2018-02-20|
|0xa74476443119a94...| 35810|2018-02-20|
|0xa74476443119a94...| 35810|2018-02-20|
|0xa74476443119a94...| 28926|2018-02-20|
|0xa74476443119a94...| 36229|2018-02-20|
|0xa74476443119a94...| 33235|2018-02-20|
|0xa74476443119a94...| 34104|2018-02-20|
|0xa74476443119a94...| 29425|2018-02-20|
|0xa74476443119a94...| 29568|2018-02-20|
|0xa74476443119a94...| 33473|2018-02-20|
|0xa74476443119a94...| 31344|2018-02-20|
|0xa74476443119a94...| 34399|2018-02-20|
|0xa74476443119a94...| 34080|2018-02-20|
|0xa74476443119a94...| 34080|2018-02-20|
|0xa74476443119a94...| 27165|2018-02-20|
|0xa74476443119a94...| 33512|2018-02-20|
+--------------------+------+----------+

运行SQL：
val data=sqlContext.sql("select * from test where amount>27000").show() 语句ok.

但是运行：
val res=sqlContext.sql("select count(amount) from test where group by date").show()
报错如下：

org.apache.spark.SparkException: Job aborted due to stage failure: Task 55 in stage 5.0 failed 1 times, most recent failure: Lost task 55.0 in stage 5.0 (TID 82, localhost, executor driver): java.lang.ArrayIndexOutOfBoundsException: 25
at $anonfun$1.apply(:27)
at $anonfun$1.apply(:27)
at scala.collection.Iterator$$anon$13.hasNext(Iterator.scala:463)
at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.processNext(Unknown Source)
at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$8$$anon$1.hasNext(WholeStageCodegenExec.scala:395)
at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:234)
at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:228)
at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:827)
at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:827)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
at org.apache.spark.scheduler.Task.run(Task.scala:108)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:338)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748)

Driver stacktrace:
at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1517)
at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1505)
at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1504)
at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:48)
at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1504)
at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:814)
at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:814)
at scala.Option.foreach(Option.scala:257)
at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:814)
at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:1732)
at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1687)
at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1676)
at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:48)
at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:630)
at org.apache.spark.SparkContext.runJob(SparkContext.scala:2029)
at org.apache.spark.SparkContext.runJob(SparkContext.scala:2050)
at org.apache.spark.SparkContext.runJob(SparkContext.scala:2069)
at org.apache.spark.sql.execution.SparkPlan.executeTake(SparkPlan.scala:336)
at org.apache.spark.sql.execution.CollectLimitExec.executeCollect(limit.scala:38)
at org.apache.spark.sql.Dataset.org$apache$spark$sql$Dataset$$collectFromPlan(Dataset.scala:2861)
at org.apache.spark.sql.Dataset$$anonfun$head$1.apply(Dataset.scala:2150)
at org.apache.spark.sql.Dataset$$anonfun$head$1.apply(Dataset.scala:2150)
at org.apache.spark.sql.Dataset$$anonfun$55.apply(Dataset.scala:2842)
at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:65)
at org.apache.spark.sql.Dataset.withAction(Dataset.scala:2841)
at org.apache.spark.sql.Dataset.head(Dataset.scala:2150)
at org.apache.spark.sql.Dataset.take(Dataset.scala:2363)
at org.apache.spark.sql.Dataset.showString(Dataset.scala:241)
at org.apache.spark.sql.Dataset.show(Dataset.scala:637)
at org.apache.spark.sql.Dataset.show(Dataset.scala:596)
at org.apache.spark.sql.Dataset.show(Dataset.scala:605)
... 50 elided
Caused by: java.lang.ArrayIndexOutOfBoundsException: 25
at $anonfun$1.apply(:27)
at $anonfun$1.apply(:27)
at scala.collection.Iterator$$anon$13.hasNext(Iterator.scala:463)
at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIterator.processNext(Unknown Source)
at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
at org.apache.spark.sql.execution.WholeStageCodegenExec$$anonfun$8$$anon$1.hasNext(WholeStageCodegenExec.scala:395)
at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:234)
at org.apache.spark.sql.execution.SparkPlan$$anonfun$2.apply(SparkPlan.scala:228)
at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:827)
at org.apache.spark.rdd.RDD$$anonfun$mapPartitionsInternal$1$$anonfun$apply$25.apply(RDD.scala:827)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:38)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:323)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:287)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
at org.apache.spark.scheduler.Task.run(Task.scala:108)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:338)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748)

感谢感谢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
adviseRed 2022-01-12 22:33
关注
sql写错了

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

达梦数据库的group by 语句出错 java
2019-04-17 15:21

回答 2 已采纳 SELECT max(shop.ID) AS 主键,max(shop.UID) AS 用户ID,test.NAME AS 姓名 FROM sysdba.T shop LEFT JOIN sys
GROUP BY GROUPING SETS ROLLUP()报错 mysql sql
2020-12-15 14:52

回答 1 已采纳 Mysql语法不支持grouping
Pandas DataFrame进行分组操作groupby后报错KeyError:“列名” 在reset_index后问题依然存在 python 有问必答
2021-09-20 17:39

回答 1 已采纳 group by前面的查询字段列表都有什么字段呢
SparkSQL
2023-11-03 19:41

ha_lydms的博客一、概述二、Spark SQL编程三、SparkSQL数据加载和保存
sql报错不是group by的表达式 mysql oracle sql
2022-10-27 15:07

回答 1 已采纳明白了不
关于SQL语句嵌套查询语句报错的解决问题 java mysql
2023-03-09 14:22

回答 3 已采纳 SELECT c_id, set_date FROM ( SELECT c_id, set_date FROM `order` WHERE set_date >= DATE_S
sql查询语句中group by遇到一些问题 sqlserver 数据库
2022-04-30 18:51

回答 1 已采纳你这应该是严格模式记住一个原则在这种分组的需求中，出现在select中的字段，要和group by中的相同，select中多出来的字段要包含在聚合函数中，例如select a,b,sum(c)from
大数据之Spark（5）- SparkSql
2022-01-29 10:15

jackyan163的博客查看数据条数 scala> df.groupBy("age").count().show() +----+-----+ | age|count| +----+-----+ | 19| 1| |null| 1| | 30| 1| +----+-----+ 2.2.4 RDD转换为DateFrame 注意：如果需要RDD与DF或者DS之间操作，那么...
laravel 5.5 group by不起作用 laravel php
2018-04-12 20:08

回答 2 已采纳 go to your config\database.php and change the setting the database that you use 'strict' => fa
乾润报表sql语句报错，怎么搞？？ java sql 数据库
2021-12-23 10:38

回答 2 已采纳请贴出具体错误信息初步感觉是未使用别名
数据库模糊查询语句报错
2016-08-13 13:39

回答 3 已采纳 group是关键字，需要转义。如果是sql server，用[]，如果是mysql，用 ``` `` ``` `
大数据技术之SparkSQL
2023-09-07 23:27

一束玫瑰作物'的博客比如select，groupby之类，还能注册临时表/视窗，进行sql语句操作，如 dataDF.createOrReplaceTempView("tmp") spark.sql("select ROW,DATE from tmp where DATE is not null order by DATE").show(100,false) 4、...
sql ,group by,不去重，mysql mysql sql
2017-07-07 07:27

回答 7 已采纳 group by d.id,d.detetime
SparkSQL优化
2023-06-08 01:11

一个散步者的梦的博客主要介绍了sparksql执行计划查看，参数优化，SQL优化（HIVE适用）等内容
Spark计算引擎之SparkSQL详解
2019-08-06 16:44

铁头娃1740的博客 personDF.groupBy("age").count().show 3.2. SQL风格语法　DataFrame的一个强大之处就是我们可以将它看作是一个关系型数据表，然后可以通过在程序中使用spark.sql() 来执行SQL查询，结果将作为一个...
没有解决我的问题, 去提问

悬赏问题

¥15 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！

SparkSQL Group by 语句报错

1条回答 默认 最新

悬赏问题

1条回答默认最新