dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？

最近学习了spark的相关内容，其中spark是具有分布式数据集RDD的，在RDD的基础上又可以生成DataFrame，DataFrame相比RDD它抽象成传统的二维表结构，同时还具有schema元数据信息方便管理和使用。如果要使用spark.sql查询的话需要将df预注册为临时表才能使用sql形式查询。但是在完成了spark和hive的集成后(spark on hive)元数据可以由metastore来管理，sparksql可以直接查询表格，无需将df预注册为临时表。而紧接着又有spark Thriftserver，通过启动该服务，可以直接免去创建dataframe等一系列的操作，仅仅按照sql操作即可。那么dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Hub-Link 2022-11-30 11:23
关注
那么dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？----- 这些懂了可以更加清楚spark的数据转换过程，知道的底层更对多对写代码的优化会更加好

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？ hadoop python spark
2022-11-29 23:12

回答 1 已采纳那么dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？----- 这些懂了可以更加清楚spark的数据转换过程，知道的底层更对多对写代码的优化会更加好
python dataframe既有文字又有数字，所有数字列都/100. python 开发语言
2021-01-19 18:33

回答 2 已采纳 import pandas as pd import numpy d={ 'name':['a','n','c','d','e','f'], # 'Gender':['male','
取出dataframe某行某列的数据，行号是数字，列号是字段名，有什么方法？ python
2021-11-24 18:26

回答 1 已采纳 df.loc[row, ['creatdate']]
Spark中RDD、DataFrame和DataSet的区别？
2018-01-13 13:16

Shaun_Xi的博客今天的三个问题是：1.Spark1.0和2.0有什么区别？（真心不想重装2.0，但是没有办法啊）2.Spark RDD、DataFrame和DataSet的区别？（往期第33题写过一次，但没有解释清楚）3.如何选择RDD还是DataFrame/DataSet？话不...
提问！python中list里的元素是dateframe，如何选取每个dataframe中的某个特定列呢？ list python 有问必答
2022-02-11 23:51

回答 2 已采纳使用iloc,ad_data[i].iloc[:,24]= 1import /ad_data[i].iloc[:,24]示例： import pandas as pd d=[pd.DataFrame
该怎么对Dataframe中某列的数据进行特定删除呢？ python 有问必答
2021-03-30 00:04

回答 4 已采纳通过str模块中判断前两位是否等于68 data = df[df['code'].str[0:2]!='68']
怎么在循环里把所有str变成dataframe然后输出到excel？或者有办法输出到excel也行 python
2019-06-01 09:41

回答 1 已采纳你可以看看这个：https://ask.csdn.net/questions/237164 例子是：https://www.cnblogs.com/lhj588/archive/2012/01/06
spark中dataframe解析_Spark中的RDD、DataFrame和DataSet讲解
2020-12-21 21:59

weixin_39998906的博客文章主要从以下几个方面进行阐述：1、Spark中的模块2、什么是DataFrame3、RDD和DataFrame的区别4、什么是DataSet5、RDD和Dataset的区别6、Dataset和DataFrame的区别与联系7、DataSet的创建8、RDD转DataFrame原因及.....
在django中如何将dataframe与前端进行交互？ django html5 jquery
2023-01-17 12:30

回答 1 已采纳 1、后端可以使用pandas库中的to_json()函数将dataframe转换为json格式。2、可以在JsonResponse中指定content_type='application/json'，
python里dataframe.列名这个代码有什么用 list python 有问必答
2021-08-06 00:01

回答 2 已采纳 1.用df.列名或者df[列名]是pandas中基本操作，用于获取df中某列的值及其索引，是一个pandas的series对象。便于对其进行后续操作，比如可使用mean(),std(),apply（
dataframe中object 与int64之间的转换过程很迷惑，求解？ python
2022-12-25 13:18

回答 2 已采纳这可能是因为df_B中的int64字段的数据类型为null，所以在进行合并的时候会将int64字段的数据类型转换为object。可以在查询数据库表时将空值设置为0，这样就可以保证df_B中int64
java rdd转df_36、将RDD转换为DataFrame
2021-03-16 02:42

weixin_39597399的博客一、概述为什么要将RDD转换为DataFrame？因为这样的话，我们就可以直接针对HDFS等任何可以构建为RDD的数据，使用Spark SQL进行SQL查询了。这个功能是无比强大的。想象一下，针对HDFS中的数据，直接就可以使用SQL进行...
往一个DataFrame里持续添加读取到的DataFrame，为什么输出为Empty？ python
2021-08-19 11:05

回答 1 已采纳 1.把al=dateframe()初始化语句放在循环外，不然每次都会新建一个dateframe对象2.确认下msg=plays.iloc 是否匹配到数据
spark是怎么从RDD升级到DataFrame的？
2020-05-11 07:46

TechFlow的博客今天是spark专题的第五篇，我们来看看DataFrame。用过Python做过机器学习的同学对Python当中pandas当中的DataFrame应该不陌生，如果没做过也没有关系，我们简单来介绍一下。DataFrame翻译过来的意思是数据帧，但...
PySpark数据分析基础：PySpark基础功能及DataFrame操作基础语法详解
2022-07-19 16:02

fanstuck的博客 Spark框架深度理解一开发缘由及优缺点Spark框架深度理解二生态圈Spark框架深度理解三运行架构、核心数据集RDDPySpark只是通过JVM转换使得Python代码能够在Spark集群上识别运行。故Spark的绝大多数功能都可以被Python...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月29日

悬赏问题

¥15 装 pytorch 的时候出了好多问题，遇到这种情况怎么处理？
¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
¥15 手机接入宽带网线，如何释放宽带全部速度
¥30 关于#r语言#的问题：如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测
¥15 ETLCloud 处理json多层级问题
¥15 matlab中使用gurobi时报错
¥15 这个主板怎么能扩出一两个sata口
¥15 不是，这到底错哪儿了😭
¥15 2020长安杯与连接网探
¥15 关于#matlab#的问题：在模糊控制器中选出线路信息，在simulink中根据线路信息生成速度时间目标曲线（初速度为20m/s，15秒后减为0的速度时间图像）我想问线路信息是什么

dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新