目前在用CDH6.3.2版本。下面是各组件及其版本
Hadoop-3.0.0、Hive-2.1.1、Spark-2.4.0、ZK-、kafka-2.2.1、hbase-2.1.0
目前公司有一个需求,想要看到一个表跟表之间的血缘关系,由于对应CDH版本并没有atlas。因此外部集成一个atlas--2.0.0版本的。在集成之后,使用hive建表并进行计算,元数据已经可以正确的同步到atlas上了。

但是,由于之前公司计算都是采用的spark,因此需要使用spark-atlas-connector来进行spark计算的血缘关系追踪。在弄好spark-atlas-connector连接器之后,配置对应的参数之后。将pyspark脚本上传到海豚调度,通过海豚调度进行脚本的调用,运行模式一般为cluster,使用yarn进行资源的分配。但是在脚本跑完之后,发现了大量数据库重复,我每跑一个脚本,都会产生数据库

连表也会不断重复,请看下图

这该怎么办,是哪里没有配置好吗