#对于数据仓库的理解
#apache hive的分层和建模是固定的么
#对于数据仓库的理解
#apache hive的分层和建模是固定的么
收起
望采纳
不是的,给你简单说说,,
可以根据用户的需求进行定制。Hive是一种灵活的架构,可以根据用户的需求进行定制,以满足不同的数据仓库需求,,
害 我还是不理解 获取一些数据后用hive构建成表格的形式,或者从中抽取一些数据,用BI体现出来,那和分层什么关系呢,分层不是抽象的概念么
1、分层是 整个数据仓库的模型设计,大部分是通过维度建模模型来设计的,根据公司的业务需求来设计,分不同的层
2、hive 是一个基于MR的计算引擎,它就是为了方便我们写sql的,其它计算引擎(spark,flink)
那就是相当于分组存放是么,把所有数据拆成几组分类存放是吗
你好,分层的思想是经过演变过来的,举个例子,比较经典的MVC分层思想,java的controller、service、mapper分层思想等等
其实在数仓中你不用分层也可以开发指标,比如你统计昨天合同数量和金额,你可以直接在贴源层的表中统计,但是会有问题
1、耦合性很高,各种表之间的关联处理后,类似指标也要做这种处理,不够通用
2、代码非常冗余,数据清洗也做,统计也做,复杂的逻辑代码特别的长
3、查找问题困难,一旦出现bug,几百行的代码排查起来简直要命
4、结构不清晰、维护困难
用了分层后,规定每一层只做每一层的事情,比如A表清洗和转换过了,形成了A1表,那么这个A1表全局都可用,不用每次都转换,分层后代码也简洁了好多,逻辑分离了,问题就好排查
分层不是固定不变的,要理解为什么分层,有哪些好处,然后才能合理的运用分层,有些公司分3层,有些公司4层,有些公司5层,这个不是规定好的,而且根据业务确定的,分几层没有好坏之分
报告相同问题?