pyspark查询处理两个hive表出错

在spark中编写代码以及结果如下：
相关代码：

 sqlstr = ("SELECT COALESCE(t1.id, t2.id) AS id,"
              " COALESCE(t1.title, t2.title) AS title, "
              "CASE WHEN t1.id IS NOT NULL AND t2.id IS NOT NULL "
              "THEN (t1.average_sentiment + t2.average_sentiment) / 2 "
              "WHEN t1.id IS NOT NULL"
              " THEN t1.average_sentiment "
              "ELSE t2.average_sentiment END AS average_sentiment"
              " FROM cjw_data.qvnasentiment t1 "
              "FULL OUTER JOIN cjw_data.xiechengsentiment t2 "
              "ON t1.id = t2.id;")

    # sqlstr = ("SELECT * FROM  cjw_data.qvnasentiment LIMIT 5;")
    df = spark.sql(sqlstr).limit(5)
    df.show(5)
    print("共有",df.count(), "行数据")
    df1 = spark.table("cjw_data.qvnasentiment")
    df2 = spark.table("cjw_data.xiechengsentiment")
    df1 = df1.drop("price")
    df1.show(2)
    df2.show(2)
    result = df1.join(df2, on="id", how="outer")
    print(result.count())
    result.show(5)

结果截图：

为什么df1.join后和之前sql查询的结果id都是null？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

18、分布式处理技术：从 PySpark 到 MPI 的全面解析
2025-11-04 10:08

放屁带闪电的博客本文深入解析了PySpark与MPI两种主流分布式处理技术，涵盖其架构、使用方法、实际应用案例及性能对比。PySpark适用于大规模数据处理与分析，提供易用的RDD和DataFrame API；MPI则在高性能计算领域表现卓越，适合科学...
zeppelin on CDH及配置spark查询hive表
2019-02-15 15:13

weixin_33727510的博客 5.用spark读取hive表这个比直接查询hive表快十倍我把hive的配置文件hive-site.xml拷贝到hadoop_home/conf 添加需要的依赖 %dep z.load("org.apache.hive:hive-jdbc:0.14.0") z.load("org.apache.hadoop:...
从0开始基于docker的大数据环境搭建/Hadoop+Spark+Flink+Hbase+Kafka+Hive+Flume+Zookeeper+Mysql等
2025-06-26 11:01

Hayasaka._的博客 console - 可选安装包： pyspark phoenixdb等二、Dokcer概念与配置 1.Docker概念镜像与容器：镜像是一个只读的模板，所有容器通过镜像生成容器类似于一台虚拟机 docker通过镜像来保证由同一个镜像生成的所有...
【大数据处理框架】Spark大数据处理框架，包括其底层原理、架构、编程模型、生态圈
2023-07-07 07:35

Java程序员廖志伟的博客举个例子，假设一个公司要分析其网站的日志数据，可以使用Spark作为数据处理框架，将日志数据存储在Hadoop HDFS上，然后使用Hive作为数据仓库工具，查询和分析数据。通过计算三角形的数量，可以评估社交网络的紧密度...
PySparkSQL 入门(概述、DataFrame操作)
2023-02-27 13:50

y鱼鱼的博客 SparkSQL 是Spark的一个模块, 用于处理海量结构化数据第一、针对结构化数据处理，属于Spark框架一个部分第二、抽象数据结构：DataFrameDataFrame = RDD + Schema信息；第三、分布式SQL引擎，类似Hive框架从Hive框架...
23、网络安全中的大数据处理架构与技术
2025-09-08 00:44

ik678901的博客本文探讨了网络安全中大数据处理的架构与技术，详细介绍了包括Hadoop分布式文件系统（HDFS）、NoSQL数据库、MapReduce、Apache Pig和Hive等关键组件。同时，深入解析了流处理技术及其在网络安全中的应用，如Spark ...
ubuntu20安装Spark和pyspark的简单使用
2022-08-17 19:14

断线纸鸢张的博客 Hadoop存在如下一些缺点：表达能力有限、磁盘IO开销大、延迟高、任务之间的衔接涉及IO开销、在前一个任务执行完成之前，其他任务就无法开始，难以胜任复杂、多阶段的计算任务Spark在借鉴Hadoop MapReduce优点的同时...
头歌实践教学平台大数据编程实训答案（一）
2024-09-26 23:33

学习的锅的博客头歌实践教学平台大数据编程实训答案
什么是Hadoop 如何学习Hadoop
2020-01-07 12:59

juan333的博客 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)，简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据，...
RDD编程初级实践
2021-06-13 23:33

m0_59280520的博客需求描述 Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些...高效的支撑更多计算模式，包括交互式查询和流处理。spark的一个主要特点是能够在内存中进行计算，及时依赖磁盘进行
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 12月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 12月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月19日

pyspark查询处理两个hive表出错

0条回答 默认 最新

问题事件

0条回答默认最新