2 weixin 33487727 weixin_33487727 于 2016.02.22 21:49 提问

spark dataframe 中write 方法,求大神指点下,不胜感激

dataframe的write方法将spark分析后的结果放到pg数据库,结果表中有个自曾字段,而那个write方法不能指定添加那几个字段只能全部添加,怎么办,求大神指导换种思路也行,不胜感激,小弟欲哭无泪啊

1个回答

devmiao
devmiao   Ds   Rxr 2016.02.22 22:44
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
Spark DataFrame创建与操作
添加依赖文件到Scala Maven工程 <dependency> <groupid>com.databricks</groupid> <artifactid>spark-csv_2.10</artifactid> <version>1.3.0</version> </dependency> 从csv文件创建DataFrame import com.dat
spark dataframe实战(持续更新)
spark dataframe实战 说明:该文基于spark-2.0+ dataframe介绍 dataframe是dataset的行的集合。 Dataset是分布式数据集合。Dataset是Spark 1.6+中添加的一个新接口,它提供了RDD的很多优点。 (强类型化,使用强大的lambda函数的功能),以及Spark SQL优化执行引擎的优点。数据集可以从JVM对象构建,然后使用函
如何应对SparkSQL DataFrame保存到hdfs时出现的过多小文件问题
原因就不解释了,总之是因为多线程并行往hdfs写造成的(因为每个DataFrame/RDD分成若干个Partition,这些partition可以被并行处理)。 其结果就是一个存下来的文件,其实是hdfs中一个目录,在这个目录下才是众多partition对应的文件,最坏的情况是出现好多size为0的文件。 如果确实想避免小文件,可以在save之前把DaraFrame的partition设为0:
Spark Dataframe操作
Spark Dataframe操作
spark DataFrame用法
最近用spark处理过一阵子日志,都是一些零零散散的临时需求,作为一个程序员,饱受查询之苦。在这个使用过程中,也渐渐对spark dataframe的使用摸索出了一些门道。 读写 与RDD的转换 一些常见的SQL查询用法 select df.select($"date".substr(0,10) as "date", $"page") 用$"
spark dataframe API 整理 (差集等)
1,从列表中创建dataframe    列表的每一个元素转换成Row对象,利用parallelize()函数将列表转换成RDD,toDF()函数将RDD转换成dataframe    from pyspark.sql import Row    l=[Row(name='jack',age=10),Row(name='lucy',age=12)]    df=sc.parallelize
Spark RDD/DataFrame map保存数据的两种方式
使用Spark RDD或DataFrame,有时需要在foreachPartition或foreachWith里面保存数据到本地或HDFS。直接保存数据当然如果不需要在map里面保存数据,那么针对RDD可以有如下方式val rdd = // target rdd rdd.saveAsHadoopFile // add some parameters 针对DataFrame可以有如下方式保存数据val
DataFrame write().jdbc实现细节(源码阅读)
可以清楚看到,df.write().jdbc其实最后就是在mapPartition里进行批量的insert。如果我们是往postgresql库里写的话,copy明显是比批量insert快的,所以写成 mapPartition( copy in ) 其实是比直接调用df.write.jdbc要快速的。
Dataframe保存模式
示例代码: val dataframe =  sqlContext.read.parquet("读取路径") dataframe.write.mode("overwrite").parquet("写入路径") overwrite是dataframe写入的一种模式,dataframe写入的模式一共有4中 def mode(saveMode: String): DataFrameWri
ThreeLayerLib源代码
ThreeLayerLib.dll的源代码,请各位大神多多指点其中存在的问题,不胜感激,再次感谢各位大神对在下的关注和指点!