dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？

最近学习了spark的相关内容，其中spark是具有分布式数据集RDD的，在RDD的基础上又可以生成DataFrame，DataFrame相比RDD它抽象成传统的二维表结构，同时还具有schema元数据信息方便管理和使用。如果要使用spark.sql查询的话需要将df预注册为临时表才能使用sql形式查询。但是在完成了spark和hive的集成后(spark on hive)元数据可以由metastore来管理，sparksql可以直接查询表格，无需将df预注册为临时表。而紧接着又有spark Thriftserver，通过启动该服务，可以直接免去创建dataframe等一系列的操作，仅仅按照sql操作即可。那么dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Hub-Link 2022-11-30 11:23
关注
那么dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？----- 这些懂了可以更加清楚spark的数据转换过程，知道的底层更对多对写代码的优化会更加好

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Spark中RDD、DataFrame和DataSet的区别？
2018-01-13 13:16

Shaun_Xi的博客今天的三个问题是：1.Spark1.0和2.0有什么区别？（真心不想重装2.0，但是没有办法啊）2.Spark RDD、DataFrame和DataSet的区别？（往期第33题写过一次，但没有解释清楚）3.如何选择RDD还是DataFrame/DataSet？话不...
spark中dataframe解析_Spark中的RDD、DataFrame和DataSet讲解
2020-12-21 21:59

weixin_39998906的博客文章主要从以下几个方面进行阐述：1、Spark中的模块2、什么是DataFrame3、RDD和DataFrame的区别4、什么是DataSet5、RDD和Dataset的区别6、Dataset和DataFrame的区别与联系7、DataSet的创建8、RDD转DataFrame原因及.....
PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解_pyspark rdd(2)
2024-05-03 11:32

2401_84181403的博客每一段数据都转换成Spark中的RDD（Resilient Distributed Dataset），然后将Spark Streaming中对DStream的Transformation操作变为针对Spark中对RDD的Transformation操作，将RDD经过操作变成中间结果保存在内存中。...
java rdd转df_36、将RDD转换为DataFrame
2021-03-16 02:42

weixin_39597399的博客一、概述为什么要将RDD转换为DataFrame？因为这样的话，我们就可以直接针对HDFS等任何可以构建为RDD的数据，使用Spark SQL进行SQL查询了。这个功能是无比强大的。想象一下，针对HDFS中的数据，直接就可以使用SQL进行...
PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解_pyspark rdd
2024-05-03 11:33

2401_84181403的博客 Spark框架深度理解一：开发缘由及优缺点Spark框架深度理解二：生态圈Spark框架深度理解三：运行架构、核心数据集RDDPySpark只是通过JVM转换使得Python代码能够在Spark集群上识别运行。故Spark的绝大多数功能都可以被...
spark是怎么从RDD升级到DataFrame的？
2020-05-11 07:46

TechFlow的博客今天是spark专题的第五篇，我们来看看DataFrame。用过Python做过机器学习的同学对Python当中pandas当中的DataFrame应该不陌生，如果没做过也没有关系，我们简单来介绍一下。DataFrame翻译过来的意思是数据帧，但...
PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解
2022-07-19 16:02

fanstuck的博客 Spark框架深度理解一开发缘由及优缺点Spark框架深度理解二生态圈Spark框架深度理解三运行架构、核心数据集RDDPySpark只是通过JVM转换使得Python代码能够在Spark集群上识别运行。故Spark的绝大多数功能都可以被Python...
spark中dataframe解析_spark结构化数据处理：Spark SQL、DataFrame和Dataset
2020-12-21 21:59

weixin_39747615的博客本文讲解Spark的结构化数据处理，主要包括：Spark SQL、DataFrame、Dataset以及SparkSQL服务等相关内容。本文主要讲解Spark 1.6.x的结构化数据处理相关东东，但因Spark发展迅速(本文的写作时值Spark1.6.2发布之际，...
SparkSQL【概述，DataFrame核心编程】
2022-09-03 08:00

OneTenTwo76的博客一 SparkSQL概述 1 SparkSQL是什么 2 Hive and SparkSQL 3 SparkSQL特点 4 DataFrame是什么 5 DataSet是什么二 SparkSQL核心编程 1 新的起点 2 DataFrame （1）创建DataFrame 从Spark数据源进行创建（2）SQL语法 ...
36、将RDD转换为DataFrame
2019-09-27 18:22

weixin_30830327的博客一、概述为什么要将RDD转换为DataFrame？因为这样的话，我们就可以直接针对HDFS等任何可以构建为RDD的数据，使用Spark SQL进行SQL查询了。这个功能是无比强大的。想象一下，针对HDFS中的数据，直接就可以使用SQL...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月29日

dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？

1条回答 默认 最新

问题事件

1条回答默认最新