Elonyong 2017-10-16 12:41 采纳率: 0%
浏览 1641

大数据的数据清洗,是应该先根据简单的逻辑清洗好数据然后入hdfs,还是直接把原始直接入hdfs

今天公司商量大数据的架构,都认为应该要先清洗数据 然后把清洗好的数据入到hbase.说是这样节省磁盘空间。我认为这样做的话,没有发挥hdfs的实际作用。应该是先把原始数据直接入到hdfs,再通过hive和mapreduce做数据的清洗入到hbase。
这里用hive还是mapreduce具体应该看业务逻辑是否复杂。请问大家我说的对不对?

  • 写回答

0条回答

    报告相同问题?

    悬赏问题

    • ¥15 Fluent齿轮搅油
    • ¥15 八爪鱼爬数据为什么自己停了
    • ¥15 交替优化波束形成和ris反射角使保密速率最大化
    • ¥15 树莓派与pix飞控通信
    • ¥15 自动转发微信群信息到另外一个微信群
    • ¥15 outlook无法配置成功
    • ¥30 这是哪个作者做的宝宝起名网站
    • ¥60 版本过低apk如何修改可以兼容新的安卓系统
    • ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
    • ¥50 有数据,怎么建立模型求影响全要素生产率的因素