大数据的数据清洗,是应该先根据简单的逻辑清洗好数据然后入hdfs,还是直接把原始直接入hdfs

今天公司商量大数据的架构,都认为应该要先清洗数据 然后把清洗好的数据入到hbase.说是这样节省磁盘空间。我认为这样做的话,没有发挥hdfs的实际作用。应该是先把原始数据直接入到hdfs,再通过hive和mapreduce做数据的清洗入到hbase。
这里用hive还是mapreduce具体应该看业务逻辑是否复杂。请问大家我说的对不对?

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问