今天公司商量大数据的架构,都认为应该要先清洗数据 然后把清洗好的数据入到hbase.说是这样节省磁盘空间。我认为这样做的话,没有发挥hdfs的实际作用。应该是先把原始数据直接入到hdfs,再通过hive和mapreduce做数据的清洗入到hbase。 这里用hive还是mapreduce具体应该看业务逻辑是否复杂。请问大家我说的对不对?
收起
当前问题酬金
¥ 0 (可追加 ¥500)
支付方式
扫码支付
支付金额 15 元
提供问题酬金的用户不参与问题酬金结算和分配
支付即为同意 《付费问题酬金结算规则》
报告相同问题?