急】hive，insert从parquet表插入到textfile(cvs)表时，字段内容为NULL

我有两张表，字段数量名字相同
A表示parquet表
B表是textfile表，放cvs数据的按tab分割

现在A表有10条数据，B表无数据，我想使用insert overwrite A到B，然后insert完毕以后，
使用hive查询B表数据，发现某些列成为了null（目前发现仅内容为数字的会是null，但为null字段当时设置的类型是String，只是内容填的数字而已）

简单叙述
我把parquet表的数据insert overwrite到textfile（或者反过来操作），使用hive查询的时候都会出现部分字段变为null的情况，但同时使用impala查询发现是有内容的，请问这是怎么回事？我猜是parquet转textfile或者textfile转parquet时就是会有问题，

所以请问怎么解决，因为目前需求需要从一张新表转到老表，老表是textfile类型的，新表是parquet
我们程序使用的java（不过上述操作我都是直接用命令行测试的）

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
smartliukun 2018-05-31 06:30
关注
先确认下 A表和B表的定义。
show create table A;
show create table B;
看下两个表的定义是否完全一致，另外看下 insert 语句是否按照表的各个字段的顺序引用各个字段。
然后看下B表的原始数据文件（通过 location 地址），下载到本地查看，那些为null的字段，在数据文件中是什么情况。希望可以帮到你。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

快速了解HIVE文件存储格式
2021-08-18 22:22

真香IT的博客快速了解HIVE文件存储格式一列式存储和行式存储二 TEXTFILE格式三 Sequence Filea 、Sequence File优缺点b、Sequence File格式1、未压缩格式2、基于record压缩格式3、基于block压缩格式四 Avro Filea 、简介b、应用...
一篇搞定，Kettle详细教程
2023-09-21 11:54

大数据东哥(Aidon)的博客本文主要以Kettle概述、Kettle开发环境部署、mac m1 kettle安装、linux kettle安装、kettle集群安装部署、kettle输入、kettle输出、kettle...大数据、kettle streaming控件、kettle作业、kettle调度、kettle变量和参数
hive-3
2021-07-13 19:09

leezsj的博客⼆级分区指的是在⼀张表中有两个分区,创建和插⼊时都要指定两个分区名,最常⻅的就是下⾯案例的年和⽉,创建的语法和流程都是和⼀级分区⼀样,只是多⼀个分区⽽已. create table if not exists part2( id int, name ...
pyspark 将csv转为parquet格式
2021-12-28 14:24

吃胡萝卜的鳄鱼的博客使用pyspark将csv转为parquet格式的数据
【《Spark SQL 深度探索：内置函数、数据源处理与自定义函数，SparkSQL连接Hive实践》】
2024-08-08 17:03

书生♡的博客【《Spark SQL 深度探索：内置函数、数据源处理与自定义函数，SparkSQL连接Hive实践》】。欢迎大家一起探索讨论！！！
吐血整理出来的大数据知识点，你掌握多少？
2020-08-28 20:18

dCHENz的博客如果重写了equals方法后我们往往比较的是对象中的属性的内容 equals方法是从Object类中继承的，默认的实现就是使用 == Java类加载过程? 1)加载加载时类加载的第一个过程，在这个阶段，将完成一下三件事情： a.通过...
Spark SQL
2023-03-20 22:07

ytzhyp的博客 "age":20} 关心每个字段数据的类型类型: DataSet关系数据+结构+类型比如: DataSet[Person] Person是我们定义好的类, 既有类型+字段+数据 3.1 创建DataFrame ➢ 从数据源中创建 scala> var df = spark.read.json(...
HAWQ 技术解析（九） —— 外部数据
2017-03-23 11:03

wzy0623的博客安装配置 PXF、PXF profile、访问 HDFS 文件、访问 Hive 数据、访问 JSON 数据、向 HDFS 中写入数据、删除外部表
Spark——DataFrame 读写和保存数据
2020-07-15 21:26

静远小和尚的博客本文主要从以下几个方面介绍Spark中的DataFrame读写和保存第一，DataFrame的介绍 ...DataFrame的前身是SchemaRDD，从Spark 1.3.0开始SchemaRDD更名为DataFrame。与SchemaRDD的主要区别是：Data
Apache Doris的Broker Load数据导入使用
2024-05-15 10:56

lfwh的博客默认为 2GB，单位为字节 3、导入案例 LOAD LABEL dwd.dwd_vehicle_stops_df_$[yyyyMMdd] ( DATA INFILE("hdfs://172.0.0.1:8020/user/hive/warehouse/dwd.db/dwd_vehicle_stops_df/date=$[yyyyMMdd-1]/*") INTO ...
没有解决我的问题, 去提问

急】hive，insert从parquet表插入到textfile(cvs)表时，字段内容为NULL

2条回答 默认 最新

2条回答默认最新