titan与hive中的数据验证

求助，如何验证hive与titan整个数据库中的数据差异，包括点属性差异与边属性差异。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

@夜缺 2018-06-23 01:25

关注

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Hvie是建立在Hadoop上的数据仓库基础架构。它提供了一系列的工具，可以用来进行数据提取转化加载(ETL)，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语句，称为HQL，它允许熟悉SQL的用户查询数据。同时，这个语言也允许熟悉MapReduce开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。

由于Hive采用了SQL的查询语言HQL，因此很容易将Hive理解为数据库。其实从结构上来看，Hive和数据库除了拥有类似的查询语言，再无类似之处。本文将从多个方面来阐述Hive和数据库的差异。数据库可以用在Online的应用中，但是Hive是为数据仓库而设计的，清楚这一点，有助于从应用角度理解Hive的特性。

查询语言 HQL SQL
数据存储位置 HDFS Raw Device或者Local FS
数据格式用户定义系统决定
数据更新不支持支持
索引无有
执行 Mapreduce Executor
执行延迟高低
可扩展性高低
数据规模大小

•查询语言：由于SQL被广泛的应用在数据仓库中，因此，专门针对Hive的特性设计了类SQL的查询语言HQL。熟悉SQL开发的开发者可以很方便的使用Hive进行开发。

•数据存储位置：Hive是建立在Hadoop之上的，所有Hive的数据都是存储在HDFS中的。而数据库则可以将数据保存在块设备或者本地文件系统中。

•数据格式：Hive中没有定义专门的数据格式，数据格式可以由用户指定，用户定义数据格式需要指定三个属性：列分隔符(通常为空格、"\t"、"\x001")、行分隔符("\n")以及读取文件数据的方法(Hive中默认有三个文件格式TextFile、SequenceFile以及RCFile)。由于在加载数据的过程中，不需要从用户数据格式到Hive定义的数据格式的转换，因此，Hive在加载的过程中不会对数据本身进行任何修改，而只是将数据内容复制或者移动到相应的HDFS目录中。而在数据库中，不同的数据库有不同的存储引擎，定义了自己的数据格式。所有数据都会按照一定的组织存储，因此，数据库加载数据的过程会比较耗时。

•数据更新：由于Hive是针对数据仓库应用设计的，而数据仓库的内容是读多写少的。因此，Hive中不支持对数据的改写和添加，所有的数据都是在加载的时候中确定好的。而数据库中的数据通常是需要经常进行修改的，因此可以使用INSERT INTO...VALUES添加数据，使用UPDATE...SET修改数据。

•索引：之前已经说过，Hive在加载数据的过程中不会对数据进行任何处理，甚至不会对数据进行扫描，因此也没有对数据中的某些Key建立索引。Hive要访问数据中满足条件的特定值时，需要暴力扫描整个数据，因此访问延迟较高。由于MapReduce的引入，Hive可以并行访问数据，因此即使没有索引，对于大数据量的访问，Hive仍然可以体现出优势。数据库中，通常会针对一个或几个列建立索引，因此对于少量的特定条件的数据的访问，数据库可以有很高的效率，较低的延迟。由于数据的访问延迟较高，决定了Hive不适合在线数据查询。

•执行：Hive中大多数查询的执行是通过Hadoop提供的MapReduce来实现的(类似select * from tbl的查询不需要MapReduce)。而数据库通常有自己的执行引擎。

•执行延迟：之前提到，Hive在查询数据的时候，由于没有索引，需要扫描整个表，因此延迟较高。另外一个导致Hive执行延迟高的因素是MapReduce框架。由于MapReduce本身具有较高的延迟，因此在利用MapReduce执行Hive查询时，也会有较高的延迟。相对的，数据库的执行延迟较低。当然，这个低是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive的并行计算显然能体现出优势。

•可扩展性：由于Hive是建立在Hadoop之上的，因此Hive的可扩展性是和Hadoop的可扩展性是一致的。而数据库由于ACID语义的严格限制，扩展性非常有限。目前最先进的并行数据库Oracle在理论上的扩展能力也只有100台左右。

•数据规模：由于Hive建立在集群上并可以利用MapReduce进行并行计算，因此可以支持很大规模的数据；对应的，数据库可以支持的数据规模较小。

报告相同问题？

关注问题

数据仓库 大数据 apachhive hive 大数据数据仓库
2023-02-24 15:51

回答 1 已采纳是的，Apache Hive的分层就是指把不同维度的数据抽取出来，并根据不同的维度进行分类存放。通过这种方式，可以更好的管理数据，便于后续的查询和分析处理。
大数据hive分区表导入数据的问题 hive 大数据
2018-01-07 12:34

回答 5 已采纳 http://blog.csdn.net/fjssharpsword/article/details/64919412
hive数据分析和hbase编程的特点 hbase hive 大数据
2022-12-14 16:03

回答 1 已采纳 hive和hbase都是大数据平台上的组件。hive类似于关系型数据库，按行存储，非常适合对sql比较熟悉的人按照sql语句进行数据处理。hbase属于非关系型数据库，采用列式存储，非常适合统计类的数
大数据的相关内容
2022-08-31 17:39

刘先生TT的博客 大数据（英语：Big data），又称为巨量资料，指的是在传统数据处理应用软件不足以处理的大或复杂的数据集的术语数据也可以定义为来自各种来源的大量非结构化或结构化数据。从学术角度而言，大数据的出现促成广泛主题...
hive插入数据报错 hadoop hive 有问必答
2021-12-08 08:57

回答 2 已采纳 hadoop安装包下的etc/hadoop/core.site.xml slaves 等配置文件中的 ip或结点名称改为结点ip 192.168.. 或名称主要是要么都是使用主机
hive创建外部表导入csv数据格式出错 hadoop hive 大数据
2022-06-06 17:18

回答 2 已采纳在window用excel把csv改成\t 分割,建表分割符改成\t
使用datax同步oracle到hive的数据错乱问题 hive java oracle 有问必答
2021-12-19 11:35

回答 2 已采纳查了一些资料,Datax源码的确有点问题,需要修改Datax的源码。参考: datax mysql null不能转为Long 等一些列无法强转问题_大壮的博客-CSDN博
【企业架构设计实战】大数据架构最佳实践
2023-02-07 09:32

禅与计算机程序设计艺术的博客数据具有多样性，有结构化的、非结构化的，与业务相关的、与系统相关的，企业内部的、企业外部的等。从数据的价值来看，可分为数据本身的和由数据分析产生的。数据本身并没有太多价值，重要的是数据进一步带给我们...
hive二级分区表中插入数据 hive
2022-01-19 14:15

回答 1 已采纳使用动态分区 set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict; insert
数据仓库、Apache hive hive 数据仓库
2023-02-27 14:43

回答 1 已采纳 DataGrip是一个数据库管理工具，主要用于连接和管理多种关系型数据库，例如MySQL、Oracle、PostgreSQL等。它提供了一系列的工具和功能，可以帮助用户管理数据库结构、编辑SQL语句、
hive数据表array类型列导入数据为空 hive 有问必答
2022-02-26 20:05

回答 3 已采纳你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为
【文末有惊喜！】Hive SQL血缘关系解析与应用
2020-12-03 07:30

搜狐技术产品小编2023的博客本文字数：7860字预计阅读时间：20分钟＋1 研究背景随着企业信息化和业务的发展，数据资产日益庞大，数据仓库构建越来越复杂，在数仓构建的过程中，常遇到数据溯源困难，数据模型修改导致业务...
hive中需要新建分区表且导入百亿数据量，如何最优实现 hadoop hive
2022-05-31 17:06

回答 2 已采纳百亿数据也不多，直接动态分区搞进去就行了
大数据元数据和数据管理框架 Apache Atlas实践
2018-11-19 22:05

ywm041004的博客今天技术小伙伴占卫同学分享了Apache Atlas元数据管理实践，被atlas的强大的血缘关系管理能力震撼，以下为本次分享内容： •Apache Atlas简介 •Apache Atlas架构 •Titan图数据库介绍 •ApachAtlas配置 •Apache ...
【数据治理】Apache Atlas元数据管理
2020-08-05 09:43

阿龙先生啊的博客在Atlas中查询某一个元数据对象时往往需要遍历图数据库中的多个顶点与边，相比关系型数据库直接查询一行数据要复杂的多，当然使用图数据库作为底层存储也存在它的优势，比如可以支持复杂的数据类型和更好的支持血缘...
没有解决我的问题, 去提问

悬赏问题

¥50 comsol稳态求解器找不到解，奇异矩阵有1个空方程返回的解不收敛。没有返回所有参数步长；pid控制
¥15 怎么让wx群机器人发送音乐
¥15 fesafe材料库问题
¥35 beats蓝牙耳机怎么查看日志
¥15 Fluent齿轮搅油
¥15 八爪鱼爬数据为什么自己停了
¥15 交替优化波束形成和ris反射角使保密速率最大化
¥15 树莓派与pix飞控通信
¥15 自动转发微信群信息到另外一个微信群
¥15 outlook无法配置成功

码龄粉丝数原力等级 --

titan与hive中的数据验证

1条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

titan与hive中的数据验证

1条回答 默认 最新

悬赏问题

1条回答默认最新