- 过多小文件问题:HDFS 将文件元数据维护在内存当中,过多的小文件会占用更多namenode内存,同时namenode增加了元数据管理压力。
- 集群达到一定规模后几千台随着元数据越来越来大,集群启动加载fsimage会占用很长时间。
如果将元数据存储在关系型数据库,小文件问题会解决因为元数据是存放在数据库中,可以支持到十亿级别。同时也没有了加载fsimage操作,同时关系型数据库也可以做HA。
如果将元数据存储在关系型数据库,小文件问题会解决因为元数据是存放在数据库中,可以支持到十亿级别。同时也没有了加载fsimage操作,同时关系型数据库也可以做HA。
HDFS本身的出发点就不是为了处理小文件而产生的,HDFS的优势在于对大文件的分布式处理能力和备份恢复能力。非要用HDFS处理小文件性能肯定受影响。