行73 2025-04-01 15:55 采纳率: 0%
浏览 5

spark-atlas-connector的重复问题

目前在用CDH6.3.2版本。下面是各组件及其版本
Hadoop-3.0.0、Hive-2.1.1、Spark-2.4.0、ZK-、kafka-2.2.1、hbase-2.1.0
目前公司有一个需求,想要看到一个表跟表之间的血缘关系,由于对应CDH版本并没有atlas。因此外部集成一个atlas--2.0.0版本的。在集成之后,使用hive建表并进行计算,元数据已经可以正确的同步到atlas上了。

img

但是,由于之前公司计算都是采用的spark,因此需要使用spark-atlas-connector来进行spark计算的血缘关系追踪。在弄好spark-atlas-connector连接器之后,配置对应的参数之后。将pyspark脚本上传到海豚调度,通过海豚调度进行脚本的调用,运行模式一般为cluster,使用yarn进行资源的分配。但是在脚本跑完之后,发现了大量数据库重复,我每跑一个脚本,都会产生数据库

img


连表也会不断重复,请看下图

img


这该怎么办,是哪里没有配置好吗

  • 写回答

4条回答 默认 最新

  • 阿里嘎多学长 2025-04-01 15:55
    关注

    阿里嘎多学长整理AIGC生成,因移动端显示问题导致当前答案未能完全显示,请使用PC端查看更加详细的解答过程

    问题解答

    你遇到了spark-atlas-connector的重复问题,可能是指在使用Spark Atlas Connector时出现了重复的元数据问题。

    根据你的描述,你使用的是CDH6.3.2版本,包括Hadoop-3.0.0、Hive-2.1.1、Spark-2.4.0、ZK、Kafka-2.2.1和Hbase-2.1.0。

    解决重复问题的方法有多种,以下是一些常见的解决方案:

    1. 检查Atlas Connector配置:确保你在Spark配置文件中正确地配置了Atlas Connector,包括 Atlas URL、用户名和密码等信息。
    2. 检查Hive元数据:检查Hive元数据是否正确,确保没有重复的表或视图。
    3. 检查Spark应用程序:检查你的Spark应用程序是否正确地使用了Atlas Connector,确保没有重复的元数据操作。
    4. 升级Atlas Connector:如果你使用的是较早版本的Atlas Connector,可以尝试升级到最新版本。

    如果你需要更多帮助,可以提供更多的信息,例如错误日志或代码示例,我将尽力帮助你解决问题。

    评论

报告相同问题?

问题事件

  • 创建了问题 4月1日