Elonyong 2017-10-16 12:41 采纳率: 0%
浏览 1641

大数据的数据清洗,是应该先根据简单的逻辑清洗好数据然后入hdfs,还是直接把原始直接入hdfs

今天公司商量大数据的架构,都认为应该要先清洗数据 然后把清洗好的数据入到hbase.说是这样节省磁盘空间。我认为这样做的话,没有发挥hdfs的实际作用。应该是先把原始数据直接入到hdfs,再通过hive和mapreduce做数据的清洗入到hbase。
这里用hive还是mapreduce具体应该看业务逻辑是否复杂。请问大家我说的对不对?

  • 写回答

0条回答 默认 最新

    报告相同问题?

    悬赏问题

    • ¥15 怎么获取下面的: glove_word2id.json和 glove_numpy.npy 这两个文件
    • ¥15 js调用html页面需要隐藏某个按钮
    • ¥15 ads仿真结果在圆图上是怎么读数的
    • ¥20 Cotex M3的调试和程序执行方式是什么样的?
    • ¥20 java项目连接sqlserver时报ssl相关错误
    • ¥15 一道python难题3
    • ¥15 牛顿斯科特系数表表示
    • ¥15 arduino 步进电机
    • ¥20 程序进入HardFault_Handler
    • ¥15 oracle集群安装出bug