关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
weixin_46861734
2021-07-19 16:27
采纳率: 0%
浏览 427
首页
有问必答
有没有做过datax自定义transformer,实现数据去重的功能
有问必答
etcd
java
有没有做过datax 自定义transformer 实现数据去重的功能
收起
写回答
好问题
0
提建议
关注问题
微信扫一扫
点击复制链接
分享
邀请回答
编辑
收藏
删除
结题
收藏
举报
2
条回答
默认
最新
关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
粟悟饭与龟波功
2024-07-31 09:59
关注
您好,找到方法了吗,我现在也遇到这个问题,有没有好的思路
本回答被题主选为最佳回答
, 对您是否有帮助呢?
本回答被专家选为最佳回答
, 对您是否有帮助呢?
本回答被题主和专家选为最佳回答
, 对您是否有帮助呢?
解决
无用
1
评论
打赏
微信扫一扫
点击复制链接
分享
举报
评论
按下Enter换行,Ctrl+Enter发表内容
查看更多回答(1条)
向“C知道”追问
报告相同问题?
提交
关注问题
大数据
ETL工具对比——SeaTunnel、
DataX
、Sqoop、Flume、Flink CDC、Dlinky、TIS、Chunjun等对比
2024-05-16 15:16
leo825...的博客
同时也是
数据
集成一站式的解决方案,有下面这么几个特点。丰富且可扩展的Connector:SeaTunnel提供了不依赖于特定执行引擎的Connector API。基于该API开发的Connector(Source、
Transform
、Sink)可以运行在很多不同...
datax
介绍
2021-09-02 14:45
leveretz的博客
DataX
是阿里巴巴集团内被广泛使用的异构
数据
源离线同步工具,致力于
实现
包括关系型
数据
库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构
数据
源之间稳定高效的
数据
同步
功能
。
DataX
本身...
Datax
执行流程,优缺点
2021-06-16 09:49
吃素的哈士奇的博客
DataX
作为一个服务于
大数据
的ETL工具,除了提供
数据
快照搬迁
功能
之外,还提供了丰富
数据
转换的
功能
,让
数据
在传输过程中可以轻松完成
数据
脱敏,补全,过滤等
数据
转换
功能
,另外还提供了自动groovy函数,让用户
自定义
...
DataX
介绍以及优缺点分析
2019-09-09 11:27
雪落成花的博客
DataX
是阿里开源的一个异构
数据
源离线同步工具,致力于
实现
包括 关系型
数据
库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等 各种异构
数据
源之间稳定高效的
数据
同步
功能
。
DataX
设计理念
DataX
本身作为...
datax
不识别字段过滤_
DataX
介绍以及优缺点分析
2020-12-05 07:57
weixin_39744240的博客
DataX
介绍:
DataX
是阿里开源的一个异构
数据
源离线同步工具,致力于
实现
包括关系型
数据
库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构
数据
源之间稳定高效的
数据
同步
功能
。
DataX
设计理念
DataX
本身...
datax
底层原理_
DataX
介绍以及优缺点分析
2020-12-29 22:51
看起来很年长的一条鱼的博客
DataX
介绍:
DataX
是阿里开源的一个异构
数据
源离线同步工具,致力于
实现
包括关系型
数据
库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构
数据
源之间稳定高效的
数据
同步
功能
。
DataX
设计理念
DataX
本身作为...
ETL(Extract-
Transform
-Load)的具体流程
2025-03-23 17:47
大数据求学路的博客
:在
大数据
平台(如Hadoop)中,先加载原始
数据
到存储层(如HDFS),再利用计算引擎(Spark)执行转换,适用于海量
数据
处理。:如JSON、XML文件或日志
数据
,通常采用文件监听机制或API接口(如RESTful API)实时/...
2021-02-08/09
大数据
课程笔记 day19day20 某大型网站日志分析离线系统
2021-02-07 15:19
Rich Dad的博客
在我们的 demo 展示中,我们使用 jqu
er
y+echarts 的方式调用程序后台提供的 rest api 接口,获取 json
数据
,然后通过 jqu
er
y+css 的方式进行
数据
展示。工作流程如下: 分析 总述 在本次项目中我们分别从七个大...
必看!智能财务AI助手设计中鲜为人知的架构技巧
2025-08-11 15:52
AI大数据智能洞察的博客
智能财务AI助手是以AI技术为核心,融合财务专业知识,覆盖“
数据
-决策-执行”全流程的智能系统。感知能力:理解多模态财务
数据
(文本、表格、图像、语音);决策能力:基于规则与AI模型生成财务决策(如自动审批、...
【Big Data】
DataX
3.0 星型
数据
链路架构的实践与价值
2025-09-26 18:15
愚者Turbo的博客
DataX
是阿里云DataWorks
数据
集成...
DataX
的核心价值在于解决异构
数据
源之间的高效批量
数据
迁移问题,通过其独特的Framework+Plugin架构设计,
实现
了对多种
数据
源的无缝对接,成为
大数据
生态中不可或缺的
数据
集成组件。
花落八股知多少
2025-05-29 20:29
洋小白的进阶之旅的博客
MongoDB & PGSQL & ORACLE & SPARKSQL & Flink MongoDB 定义:开源的文档型非关系型
数据
库,以 BSON(类似 JSON 的二进制格式)存储
数据
,适合处理半结构化和非结构化
数据
,常用于互联网应用、
大数据
存储等场景。...
Spark Core
2021-01-04 09:40
DevinKim的博客
经过上面的比较,我们可以看出在绝大多数的
数据
计算场景中,Spark 确实会比 MapReduce更有优势。但是 Spark 是基于内存的,所以在实际的生产环境中,由于内存的限制,可能会由于内存资源不够导致 Job 执行失败,...
大数据
治理.
数据
采集/归集技术
2023-06-18 19:23
908486905的博客
DATAx
是阿里开源的一个异构
数据
源离线同步工具,致力于
实现
包括关系型
数据
库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构
数据
源之间稳定高效的
数据
同步
功能
。 FlinkCDC --Change Data Capture--捕...
DataX
介绍
2023-07-18 16:10
顺其自然~的博客
速度明显比sqoop快(表
数据
量3000万分界点并且表没有自增的整型主键,前面是sqoop 22:27 - 35:58 一共751s,后面是指定5个channel时间162s,第三个是一个channel时间是471s,大表sqoop也比较慢,使用多个map,然后...
Datax
同步
数据
ClickHouse to StarRocks
2025-03-07 20:38
爱编程的Loren的博客
需求是将 Clickhouse 测试库下所有的表
数据
进行同步,同步到 StarRocks中。
【
大数据
、
数据
开发与
数据
分析面试题汇总(含答案)】
2025-04-21 16:11
花架ギ的博客
在
数据
开发与
数据
分析领域的面试中,扎实掌握各类知识点至关重要。以下是精心整理的面试题,涵盖单选题和多选题,助你备考一臂之力。
没有解决我的问题,
去提问
向专家提问
向AI提问
付费问答(悬赏)服务下线公告
◇ 用户帮助中心
◇ 新手如何提问
◇ 奖惩公告
问题事件
关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
创建了问题
7月19日