spark-atlas-connector的重复问题

目前在用CDH6.3.2版本。下面是各组件及其版本
Hadoop-3.0.0、Hive-2.1.1、Spark-2.4.0、ZK-、kafka-2.2.1、hbase-2.1.0
目前公司有一个需求，想要看到一个表跟表之间的血缘关系，由于对应CDH版本并没有atlas。因此外部集成一个atlas--2.0.0版本的。在集成之后，使用hive建表并进行计算，元数据已经可以正确的同步到atlas上了。

但是，由于之前公司计算都是采用的spark，因此需要使用spark-atlas-connector来进行spark计算的血缘关系追踪。在弄好spark-atlas-connector连接器之后，配置对应的参数之后。将pyspark脚本上传到海豚调度，通过海豚调度进行脚本的调用，运行模式一般为cluster，使用yarn进行资源的分配。但是在脚本跑完之后，发现了大量数据库重复，我每跑一个脚本，都会产生数据库

连表也会不断重复，请看下图

这该怎么办，是哪里没有配置好吗

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-04-01 15:55
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

问题解答

你遇到了spark-atlas-connector的重复问题，可能是指在使用Spark Atlas Connector时出现了重复的元数据问题。

根据你的描述，你使用的是CDH6.3.2版本，包括Hadoop-3.0.0、Hive-2.1.1、Spark-2.4.0、ZK、Kafka-2.2.1和Hbase-2.1.0。

解决重复问题的方法有多种，以下是一些常见的解决方案：

检查Atlas Connector配置：确保你在Spark配置文件中正确地配置了Atlas Connector，包括 Atlas URL、用户名和密码等信息。
检查Hive元数据：检查Hive元数据是否正确，确保没有重复的表或视图。
检查Spark应用程序：检查你的Spark应用程序是否正确地使用了Atlas Connector，确保没有重复的元数据操作。
升级Atlas Connector：如果你使用的是较早版本的Atlas Connector，可以尝试升级到最新版本。

如果你需要更多帮助，可以提供更多的信息，例如错误日志或代码示例，我将尽力帮助你解决问题。
解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

spark-atlas-connector编译好的jar包
2022-08-17 17:22

atlas的spark sql插件
【亲测免费】 Apache Spark Atlas Connector 使用指南
2024-09-10 09:21

陶影嫚Dwight的博客 Apache Spark Atlas Connector 使用指南项目介绍 Apache Spark Atlas Connector 是一个专为跟踪 Spark SQL 和 DataFrame 变换设计的连接器，它能够将元数据更改推送到 Apache Atlas 中，以实现数据血缘的追踪。此...
探索元数据管理新纪元：Spark Atlas Connector
2024-05-25 09:43

贾雁冰的博客探索元数据管理新纪元：Spark Atlas Connector 在大数据领域中，元数据管理是至关重要的，它能帮助我们理解数据的来源、处理过程以及最终结果。Apache Atlas 是一个强大的元数据服务框架，而 Spark Atlas Connector ...
Atlas Spark SQL血缘分析，Hive Hook
2024-05-25 17:45

Apache Atlas 是一个元数据管理框架，它为大数据生态系统提供了一个全面的数据治理解决方案。它支持对数据的分类、标记、审计和血缘分析，确保数据质量和合规性。在本主题中，我们将深入探讨如何使用Apache Atlas...
atlas关联spark
2020-07-24 17:35

weixin：953010556的博客 Spark Atlas Connector安装 spark2.4.0 atlas2.0.0 scala2.11.12 java1.8 通过https://github.com/hortonworks-spark/spark-atlas-connector 下载zip解压后通过mvn编译 mvn package -DskipTests mvn3.6.3编译成功...
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构
2025-01-06 20:13

m0_74823705的博客没有统一的数据管理平台和数据源头，数据全生命周期管理不完整，同时企业各信息系统的数据录入环节过于简单且手工参与较多，就数据本身而言，缺少是否重复、合法、对错等校验环节，导致各个系统的数据不够准确，格式...
数据治理之元数据管理的利器——Atlas入门宝典
2021-10-29 15:05

大数据流动的博客随着数字化转型的工作推进，数据治理的工作已经被越来越多的公司提上了日程。作为Hadoop生态最紧密的元数据管理与发现工具，Atlas在其中扮演着重要的位置。但是其官方文档不是很丰富，也不够...
大数据项目 --- 数据采集项目
2022-11-07 15:41

ASDWYang的博客 大数据第一个项目笔记整理
大数据实战项目 -- 离线数仓
2021-05-10 15:45

L小Ray想有腮的博客一、准备 1.1 集群规划 ...Hive，Tez， Spark， Flink 数据查询 Presto，Druid ，Impala，Kylin 数据可视化 Echarts、Superset、Tableau、QuickBI、DataV 任务调度 Azkaban、Oozie 集群监控 Za
大数据常见面试问题汇总
2023-07-12 12:50

Bigdata_shit的博客不会丢数：断点续传重复数据：有可能（4）存在的问题及解决方案 ①问题：新文件判断条件 = iNode值 + 绝对路径（包含文件名）日志框架凌晨修改了文件名称=》导致会再次重读一次昨天产生的数据 ②解决：方案...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月1日

spark-atlas-connector的重复问题

4条回答 默认 最新

问题事件

4条回答默认最新