datahub如何编辑字段级别的血缘关系

问题遇到的现象和发生背景

我想要设置字段级别的血缘关系, 但是我根据官网和您的代码进行了一些修改, 可是没有生效, 您能帮忙分析一下或者给一个设置字段级别的血缘关系的代码实例可以吗?

问题相关代码，请勿粘贴截图


from typing import List
import datetime
import datahub.emitter.mce_builder as builder
from datahub.emitter.mcp import MetadataChangeProposalWrapper
from datahub.emitter.rest_emitter import DatahubRestEmitter
from datahub.metadata.com.linkedin.pegasus2avro.dataset import (
    DatasetLineageType,
    FineGrainedLineage,
    FineGrainedLineageDownstreamType,
    FineGrainedLineageUpstreamType,
    Upstream,
    UpstreamLineage
)
from datahub.metadata.schema_classes import *


def datasetUrn(tbl):
    return builder.make_dataset_urn("hive", tbl)


def fldUrn(tbl, fld):
    return builder.make_schema_field_urn(datasetUrn(tbl), fld)


def add_metadata_by_me(urn: str, desc: str, emitter: DatahubRestEmitter):
    # 构造一个数据集属性对象
    dataset_properties = DatasetPropertiesClass(description=desc)

    # 构造一个MetadataChangeProposalWrapper对象
    metadata_event = MetadataChangeProposalWrapper(
        entityType="dataset",
        changeType=ChangeTypeClass.UPSERT,
        entityUrn=urn,
        aspectName="datasetProperties",
        aspect=dataset_properties,
    )

    # emit 元数据,这是一个阻塞调用
    res = emitter.emit(metadata_event)
    print(res)

def add_data_lineage(src_urns: List[str], dest_urn: str, emitter: DatahubRestEmitter):
    # 构建数据血缘上流对象UpstreamClass实例
    upstream_tables: List[UpstreamClass] = []
    for urn in src_urns:
        upstream_tables.append(
            UpstreamClass(
                dataset=urn,
                type=DatasetLineageTypeClass.TRANSFORMED,
                auditStamp=AuditStampClass(
                    time= int(datetime.datetime.now().timestamp()*1000),
                    actor="urn:li:corpuser:datahub",
                ),
            )
        )
    # 构建上流数据血缘对象实例
    fineGrainedLineages = [
        # FineGrainedLineage(
        #     upstreamType=FineGrainedLineageUpstreamType.FIELD_SET,
        #     upstreams=[fldUrn("bar2", "c1"), fldUrn("bar4", "c1")],
        #     downstreamType=FineGrainedLineageDownstreamType.FIELD,
        #     downstreams=[fldUrn("bar", "c1")]),

        FineGrainedLineage(
            upstreamType=FineGrainedLineageUpstreamType.FIELD_SET,
            upstreams=[fldUrn("tmp.skip_test", "user_id")],
            downstreamType=FineGrainedLineageDownstreamType.FIELD_SET,
            downstreams=[fldUrn("tmp.skip_test2", "id")]),
    ]
    upstream_lineage = UpstreamLineage(upstreams=upstream_tables, fineGrainedLineages=fineGrainedLineages)

    # 构造一个MetadataChangeProposalWrapper对象
    lineage_mcp = MetadataChangeProposalWrapper(
        entityType="dataset",
        changeType=ChangeTypeClass.UPSERT,
        entityUrn=dest_urn,
        aspectName="upstreamLineage",
        aspect=upstream_lineage,
    )

    # emit 元数据,阻塞调用
    res = emitter.emit(lineage_mcp)
    print(res)


gms_server_url = "http://localhost:8080"

# 构建一个GMS REST API Emitter。
rest_emitter = DatahubRestEmitter(gms_server_url)

add_metadata_by_me(builder.make_dataset_urn("hive", "tmp.skip_test"), "测试1", rest_emitter)
add_metadata_by_me(builder.make_dataset_urn("hive", "tmp.skip_test2"), "测试2", rest_emitter)
# add_metadata_by_me(builder.make_dataset_urn("hive", "test.tableC"), "用户PV/UV按天统计数据", rest_emitter)

add_data_lineage(
    src_urns=[builder.make_dataset_urn("hive", "tmp.skip_test"),
              # builder.make_dataset_urn("hive", "test.tableB")
              ],
    dest_urn=builder.make_dataset_urn("hive", "tmp.skip_test2"),
    emitter=rest_emitter
)

我想要达到的结果

skip_test的user_id 下游指向 skip_test2 的 id 字段

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

python字段未定义报错！ python
2022-05-03 09:49

回答 1 已采纳改成 for x in df['fcfe']: 望采纳，谢谢
python一个字段取另一个字段 python
2023-01-04 15:58

回答 1 已采纳没看明白什么意思
Tableau编辑字段报错 python
2022-02-09 21:37

回答 2 已采纳用到的三个时间字段都看一下数据内容吧，日期格式存在问题，应该是值太短了
datahub使用-字段级&表级数据血缘-clickhouse
2023-12-08 15:28

小麻烦不是我的博客 datahub获取clickhouse表之间数据血缘
使用python查找书本中的字段 python 有问必答
2021-11-08 23:47

回答 1 已采纳用in去判断行不行？具体要看你功能是怎样实现
Python数据库操作，创建关系型数据库 python
2021-11-19 10:48

回答 2 已采纳 import pymysql class stuSystem: def open_mysql(self): self.conn = pymysql.connect('loca
python和数据库datetime类型字段格式转换 python
2021-08-19 10:31

回答 1 已采纳把外面那个括号去掉直接让他是datetime.datetime类型然后.strftime('%Y-%m-%d %H:%M:%S')
DataHub调研&数据血缘
2023-04-04 14:16

静哥哥~的博客在DataHub中可以通过GraphQL API轻松的创建和添加任何实体标签，这样随着时间的推移，实体的属性回越来越丰富。当有一天我们想要查看某一标签的相关实体信息时，只需要在标签位置点击该标签，就会将所有相关的...
python中返回字符串中的重复字段 python 有问必答
2021-10-06 00:24

回答 1 已采纳 import re def longest_contained_square(s): rs = re.findall(r'((.+)\2+)',s) if len(rs)==0:
python 如何提取字段首字母 python
2019-07-25 14:13

回答 2 已采纳 import numpy as np def deal(tmp): try: tmp=tmp.strip() tmp=tmp[0] return int(tmp) exce
python语法给文件中每条json追加字段追加数据 python
2022-12-10 12:34

回答 1 已采纳先读再写，比如这样 import json new = {"new":"test"} with open("test.json") as f: a = json.load(f) a.updat
基于DataHub元数据血缘管理实施方案
2023-03-21 14:32

只会写demo的程序猿的博客插件安装命令如：pip install 'acryl-datahub[mysql]' 使用命令查看当前已安装的插件python3 -m datahub check plugins web端ui方式 cli端yml方式 yml解析模板 source: type: mysql #数据源可以是hive等其他，相应...
python 提取多个字符串中的多个字段 python 开发语言有问必答
2021-10-28 23:49

回答 1 已采纳用正则表达式。你题目的解答代码如下： import re li_s = ['S 【80-100斤】', 'M【100-110斤】', 'L【110-120斤】', 'XL 【120-130斤】',
解析spark sql将数据血缘并导入datahub
2023-08-23 17:35

州周的博客由于我们是spark读取数据写入hudi 但是datahub自带的spark解析貌似不能解析。所以试图通过spline-spark-agent解析并导入datahub。
血缘系统 datahub + Sqllineage
2024-08-13 14:34

CesarChoy的博客业界比较主流的数据血缘系统，目前还没能达到与调度系统耦合，最大难点在于代码解析。当某张表下游太多时(特别是维度表)，展示也失去了意义，所以多用于排查某张应用表的上游从哪里开。使用方一般为对数仓表结构不太...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月31日

悬赏问题

¥15 如何让子窗口鼠标滚动独立，不要传递消息给主窗口
¥15 如何能达到用ping0.cc检测成这样？如图
¥15 关于#DMA固件#的问题，请各位专家解答！
¥15 matlab生成的x1图不趋于稳定，之后的图像是稳定的水平线
¥15 请问华为OD岗位的内部职业发展通道都有哪些，以及各个级别晋升的要求
¥20 微信小程序 canvas 问题
¥15 系统 24h2 专业工作站版，浏览文件夹的图库，视频，图片之类的怎样删除？
¥15 怎么把512还原为520格式
¥15 MATLAB的动态模态分解出现错误，以CFX非定常模拟结果为快照
¥15 求高通平台Softsim调试经验

datahub如何编辑字段级别的血缘关系

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

我想要达到的结果

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新