在HADOOP中建了一张分区表,举个简单的例子:比如产品表PRODUCT
其中有个产品代码、产品类别等字段,
按产品类别分区,比如有10个产品类别;
现在根据每个产品类别开发了一个脚本,共10个脚本,目标是往同一张表里插入数据,有2种方式:
1、建10张临时表,并行插入数据,最后再统一插入到目标表
2、十个脚本直接并行插入到目标表;
疑问:第二种方式会存在传统数据库的锁表吗?如果会的话是不是会等待一个跑完了才能跑下一个?
因为HADOOP是按分区建目录的,所以我理解是每个目录插入数据互不干扰,不知道是不是这样的?