有关hadoop数据导入的一些疑问

hdfs是一个分布式文件存储系统,如果我每天产生2G日志,是不是每天还要把这2G日志,导入到hdfs系统中?
如果导入,那么等于我一天的硬盘存储就是4G(近似值),因为2G日志+2G的hdfs文件,觉得这样很没有效率。

请问,我这样理解对不对?

3个回答

噢,写个脚本跑定时任务好了。让他凌晨的时候自己折腾去。
还可以增量分析嘛。

分布式文件存储一般不太在意这个存储空间,日志文件如果需要计算需要备份,那就存。
一般情况都是定期清理,并不是永久不动的。

我接触到的hadoop一般都是用到它的计算会很多,存储只是附带上用。

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问
相关内容推荐