spark sql 语法问题,新手求指点

使用spark 连接mysql 查询时发现一个错误,经过检测后发现是sql语句的问题,但sql 语句在mysql中是能够查询出来的,但是当使用spark进行查询的时候却发现报错了,sql语句如下:

# 计算出支付通道为alipay的金额最大的前5位商户号？
select pay_channel,oid,sum(money) from pay where pay_channel = 'alipay' group by oid order by sum(money) desc limit 5 ;

select pay_channel,oid,sum(money) from pay where pay_channel = 'alipay' group by oid,pay_channel order by sum(money) desc limit 5 ;

正确代码代码如下,使用的是第二条sql语句如果使用第一条sql语句是会报错:

import java.util.Properties

import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, Row, SparkSession}


object Test23 {
  def main(args: Array[String]): Unit = {
    //使用SparkSession.builder.替代SQLContext
    val sqlContext = SparkSession.builder.
      master("local[*]")
      .appName("TestMysql")
      .getOrCreate()
    val url = "jdbc:mysql://hadoop01:3306/spark?characterEncoding=UTF-8"
    val table = "pay"
    val properties = new Properties()
    properties.setProperty("user", "root")
    properties.setProperty("password", "123456")
    //需要传入Mysql的URL、表明、properties（连接数据库的用户名密码）
    val df = sqlContext.read.jdbc(url, table, properties)
    df.createOrReplaceTempView("pay")
    val frame: DataFrame = sqlContext.sql("select pay_channel,oid,sum(money) from pay where pay_channel = 'alipay' group by oid,pay_channel order by sum(money) desc limit 5 ")
    val rdd = frame.rdd
    rdd.foreach(println(_))

  }
}

此两行sql语句在mysql中都是能正常查出来结果的,它们两个的区别就是第二条sql语句使用pay_channel字段多进行了一次分组,不过我在sql语句中已经把pay_channel作为了一个条件固定死了,为啥还要进行分组,不然会报错,报错内容如下:

Exception in thread "main" org.apache.spark.sql.AnalysisException: expression 'pay.`pay_channel`' is neither present in the group by, nor is it an aggregate function. Add to group by or wrap in first() (or first_value) if you don't care which value you get.;;
GlobalLimit 5
+- LocalLimit 5
   +- Project [pay_channel#3, oid#0, sum(money)#23]
      +- Sort [sum(money)#23 DESC NULLS LAST], true
         +- Aggregate [oid#0], [pay_channel#3, oid#0, sum(money#6) AS sum(money)#23]
            +- Filter (pay_channel#3 = alipay)
               +- SubqueryAlias pay
                  +- Relation[oid#0,pos_name#1,order_num#2,pay_channel#3,pay_method#4,posId#5,money#6,pay_time#7,ord_status#8,rec_state#9] JDBCRelation(pay) [numPartitions=1]

    at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$class.failAnalysis(CheckAnalysis.scala:39)
    at org.apache.spark.sql.catalyst.analysis.Analyzer.failAnalysis(Analyzer.scala:91)
    at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1.org$apache$spark$sql$catalyst$analysis$CheckAnalysis$class$$anonfun$$checkValidAggregateExpression$1(CheckAnalysis.scala:247)
    at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1$$anonfun$apply$9.apply(CheckAnalysis.scala:280)
    at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1$$anonfun$apply$9.apply(CheckAnalysis.scala:280)
    at scala.collection.immutable.List.foreach(List.scala:381)
    at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1.apply(CheckAnalysis.scala:280)
    at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$$anonfun$checkAnalysis$1.apply(CheckAnalysis.scala:78)
    at org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:127)
    at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$foreachUp$1.apply(TreeNode.scala:126)
    at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$foreachUp$1.apply(TreeNode.scala:126)
    at scala.collection.immutable.List.foreach(List.scala:381)
    at org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:126)
    at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$foreachUp$1.apply(TreeNode.scala:126)
    at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$foreachUp$1.apply(TreeNode.scala:126)
    at scala.collection.immutable.List.foreach(List.scala:381)
    at org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:126)
    at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$foreachUp$1.apply(TreeNode.scala:126)
    at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$foreachUp$1.apply(TreeNode.scala:126)
    at scala.collection.immutable.List.foreach(List.scala:381)
    at org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:126)
    at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$foreachUp$1.apply(TreeNode.scala:126)
    at org.apache.spark.sql.catalyst.trees.TreeNode$$anonfun$foreachUp$1.apply(TreeNode.scala:126)
    at scala.collection.immutable.List.foreach(List.scala:381)
    at org.apache.spark.sql.catalyst.trees.TreeNode.foreachUp(TreeNode.scala:126)
    at org.apache.spark.sql.catalyst.analysis.CheckAnalysis$class.checkAnalysis(CheckAnalysis.scala:78)
    at org.apache.spark.sql.catalyst.analysis.Analyzer.checkAnalysis(Analyzer.scala:91)
    at org.apache.spark.sql.execution.QueryExecution.assertAnalyzed(QueryExecution.scala:52)
    at org.apache.spark.sql.Dataset$.ofRows(Dataset.scala:66)
    at org.apache.spark.sql.SparkSession.sql(SparkSession.scala:623)
    at com.czxy.exercise05.Test23$.main(Test23.scala:31)
    at com.czxy.exercise05.Test23.main(Test23.scala)

只是语法的区别么?求大佬解答一下原因!

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
蔡能教授，网站特聘专家 2020-04-10 09:48
关注
https://blog.csdn.net/zhao897426182/article/details/78354083

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

spark sql数据如何求交集？ spark sql 大数据有问必答
2022-01-18 20:31

回答 3 已采纳 spark sql中可以使用except来获得两组数据的交集 SELECT * FROM student_1 EXCEPT SELECT * FROM student_2; 你如果是某一行中的某
Spark SQL应用通过Java代码提交至Yarn集群上 java spark
2022-10-11 15:35

回答 1 已采纳给你找了一篇非常好的博客，你可以看看是否有帮助，链接：Spark SQL 通过什么来实现？
spark-sql如何按用户对time排序，序号为新增的一列 java spark sql
2022-09-21 19:05

回答 2 已采纳 spark基本数据处理之推荐数据movielens_小李飞刀李寻欢的博客-CSDN博客
一个JAVA程序员成长之路（转载）
2020-04-11 17:16

简单点，编程的方式简单点的博客我搞JAVA也有些日子了, 因为我比较贪玩,上进心不那么强, 总是逼不得已为了高薪跳槽才去学习, 所以也没混成什么大牛, 但好在现在也已经成家立业, 小日子过的还算滋润, 起码顶得住一月近万元的吃喝拉撒玩各种贷款信用...
在使用Spark连接数据库时发生Caused by: java.sql.SQLException: Out of range value for column 'age' : value age java spark sql
2022-02-09 14:38

回答 1 已采纳 http://cn.voidcc.com/question/p-ozcajljc-dh.html，看下这个
sql问题，不知道如何解决 hive spark sql
2022-03-27 16:28

回答 2 已采纳 explode+lateral view上面是数组类型就不需要split了
spark sql的执行顺序是什么样的 hadoop hive spark
2022-12-26 21:08

回答 2 已采纳 Spark SQL 的执行顺序通常分为以下几步：解析 SQL 语句：Spark SQL 会先将 SQL 语句解析成内部的表达式树，以便对其进行更好的优化。优化表达式树：在解析后，Spark SQL 会
Java工程师成长之路
2019-08-23 23:39

四月是你的的博客 flume 日志处理 hadoop hive presto hdfs storm spark 大数据流式计算，这些够你喝一壶的了，学到这个份上，也不需要别人指点你什么了，你能到达这个阶段本身已经证明了自己的学习和技术能力。到达这个阶段，你...
hive on spark运行sql报错 hive spark 有问必答
2021-09-28 16:58

回答 2 已采纳该问题由hive与spark两者版本不兼容导致的，具体的解释，在官网是有说明的：Hive on Spark is only tested with a specific version of Spar
在Java web中怎么提交一个spark job任务？ java spark
2018-11-06 15:11

回答 3 已采纳 spark使用命令行提交任务使用场景很窄，一般情况下提交任务、kill任务、查询任务执行状态都是使用http接口，在这种场景下你应该使用livy。你需要安装livy，才可以用，具体安装文档以及使用文档
Java编写flatMap参数问题 java spark
2022-07-05 21:33

回答 2 已采纳看着像是强制类型转换。去掉的话，错误信息是不是与类型有关
一个JAVA程序员成长之路分享
2017-05-26 16:18

ironresolve的博客我搞JAVA也有些日子了, 因为我比较贪玩,上进心不那么强, 总是逼不得已为了高薪跳槽才去学习, 所以也没混成什么大牛, 但好在现在也已经成家立业, 小日子过的还算滋润, 起码顶得住一月近万元的吃喝拉撒玩各种贷款信用...
spark SQL数据库，双条件汇总求和。 sql
2022-05-08 14:30

回答 1 已采纳直接select *,sum(销售额) 合计销售额 from a group by 类型,日期j就可以了，分组求和啊
一个JAVA程序员成长之路分享（转存）
2019-11-02 22:58

心静志坚的大鹅的博客我搞JAVA也有些日子了, 因为我比较贪玩,上进心不那么强, 总是逼不得已为了高薪跳槽才去学习, 所以也没混成什么大牛, 但好在现在也已经成家立业, 小日子过的还算滋润, 起码顶得住一月近万元的吃喝拉撒玩各种贷款信用...
一个JAVA程序员成长之路分享(转载)
2020-07-22 19:17

程序员时时的博客我搞JAVA也有些日子了, 因为我比较贪玩,上进心不那么强, 总是逼不得已为了高薪跳槽才去学习, 所以也没混成什么大牛, 但好在现在也已经成家立业, 小日子过的还算滋润, 起码顶得住一月近万元的吃喝拉撒玩各种贷款信用...
没有解决我的问题, 去提问

悬赏问题

¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
¥15 （希望可以解决问题）ma和mb文件无法正常打开，打开后是空白，但是有正常内存占用，但可以在打开Maya应用程序后打开场景ma和mb格式。
¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
¥20 腾讯企业邮箱邮件可以恢复么
¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗？
¥15 错误 LNK2001 无法解析的外部符号
¥50 安装pyaudiokits失败
¥15 计组这些题应该咋做呀
¥60 更换迈创SOL6M4AE卡的时候，驱动要重新装才能使用，怎么解决？
¥15 让node服务器有自动加载文件的功能

spark sql 语法问题,新手求指点

1条回答 默认 最新

悬赏问题

1条回答默认最新