使用 scala 语言的 spark.sql 把 mysql 数据库中的数据增量抽取到 hudi 中

我需要编写 scala 代码，使用 spark 将 mysql 的 shtd_store 库中的 user_info 表的数据增量抽取到 hudi 的 ods 库中（路径为 /user/hive/warehouse/ods.db）的 user_info 中。根据 ods.user_info 表中的 operate_time 或 create_time 作为增量字段字段（即 MySQL 中每条数据取这两个时间中较大的那个时间作为增量字段去和 ods 里的这两个字段中较大的时间进行比较）。只将新增的数据抽入，字段名称、类型不变，同时添加分区，若 operate_time 为空，则用 create_time 填充，分区字段为 etl_date，类型为 String，且值为当天日期（分区字段格式为 y-M-d）。id 作为 primaryKey，operate_time 作为 preCombineField。

我应该如何编写这段代码，请各位指教，最好能出完整代码，感谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
往事随风ing 博客专家认证 2023-11-28 15:01
关注
建议：使用 Flink CDC 直接增量实时写入 Hudi 表。
注意：离线初始化/重置表时，才使用 Spark 拉取。

代码参考：https://ververica.github.io/flink-cdc-connectors/master/content/connectors/mysql-cdc.html

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Spark 读取 Hive 数据报错 NoSuchMethodError : org.apache.spark.sql.catalyst.catalog.SessionCatalog hive spark 大数据
2022-12-15 15:54

回答 1 已采纳 22/12/15 15:32:44 INFO SparkContext: Invoking stop() from shutdown hook集群资源不足，且动态资源分配申请的executors、内存
Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState' eclipse intellij-idea java java-ee scala
2019-08-09 21:16

回答 3 已采纳这个问题我已经解决，我发现是仔细看了一下，后面的错误是Exception in thread "main"java.lang.UnsatisfiedLinkError，我本地的hadoop版本是2.7
在使用Spark连接数据库时发生Caused by: java.sql.SQLException: Out of range value for column 'age' : value age java spark sql
2022-02-09 14:38

回答 1 已采纳 http://cn.voidcc.com/question/p-ozcajljc-dh.html，看下这个
大数据之使用Spark增量抽取MySQL的数据到Hive数据库（1）
2023-04-26 16:26

约定Da于配置的博客用于将MySQL数据库中的数据增量导入到Hive数据仓库中的指定表格中。首先，通过SparkSession读取MySQL数据库中的数据，并创建临时视图。然后，使用Spark SQL查询Hive数据仓库中已存在表格的最大修改时间。接着，通过...
如何在IntelliJ IDEA中安装完scala后，spark包报红？ intellij-idea spark
2022-04-19 11:52

回答 2 已采纳依赖和依赖的版本都要对上
大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
Spark实验统计信息缺失个数报错，如何解决？(语言-scala) hive scala spark
2022-05-17 10:42

回答 1 已采纳 target字段转数字失败，你看一下数据对应的该字段是不是有非数字的值
编写Scala代码，使用Spark讲Mysql数据表中的数据抽取到Hive的ODS层
2022-11-07 20:31

doki--的博客抽取MySQL的shtd_industry库中EnvironmentData表的全量数据进入Hive的ods库中表environmentdata，字段排序、类型不变，同时添加静态分区，分区字段类型为String，且值为当前日期的前一天日期（分区字段格式为...
在java中如何获取或初始化scala.collection.immutable.Map? java scala
2015-12-05 10:50

回答 1 已采纳 java.util.Map javaMap = new java.util.HashMap(); scala.collection.immutable.Map scalaImmutableMap =
SparkSQL整合mongodb出错 mongodb scala spark
2021-09-08 09:26

回答 2 已采纳看看下面这篇文章能否解决你的问题,如果有用请采纳哦~Caused by后面一般写着报错的原因 Caused by: java.lang.NoSuchMethodError: org.ap
在命令行中运行scala出错 spark 大数据
2022-04-19 15:29

回答 1 已采纳我印象中我也有过类型的错误，我当时是java版本和scala不匹配。不知道你这个是不是。
hudi详解并集成spark实现快照查询和增量读取数据
2021-12-12 17:31

总写bug的程序员的博客 1.什么是Hudi？ 2.Hudi对HDFS可以实现哪些操作？...你是否遇到过这样的问题，使用Sqoop获取Mysql日志或则数据，然后将新增数据迁移到Hive或则HDFS。对于新增的数据，有不少公司确实是这么做的，比较高级点的，通过She.
求解答：如何使用sparksql进行模糊查询？ scala spark 大数据
2022-05-19 17:16

回答 1 已采纳 SELECT SUBSTR(NAME,1,INSTR(NAME,'(')-1),COUNT(1)FROM (SELECT '顶层(共20层)' NAME UNION ALLSELECT '顶层(共21
离线数据处理——子任务一：数据抽取
2023-09-01 13:50

长风有续X的博客 loadJDBC方法负责加载mysql中的数据，appendHive方法负责将增量抽取的数据追加写入到hive的相关表中。// 负责mysql的链接和hive的写入// 加载jdbcdataframe// 增量写入hiveval db = hiveMap("db") // 确定数据库val ...
2023大数据技能竞赛模块B数据抽取Task1_3(电商)
2024-01-06 23:04

xfcloud的博客编写Scala代码，使用Spark将MySQL的shtd_store库中表user_info、sku_info、base_province、base_region、order_info、order_detail的数据增量抽取到Hive的ods库中对应表user_info、sku_info、base_province、base_...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月28日

悬赏问题

¥15 单纯型python实现编译报错
¥15 c++2013读写oracle
¥15 c++ gmssl sm2验签demo
¥15 关于模的完全剩余系(关键词-数学方法)
¥15 有没有人懂这个博图程序怎么写，还要跟SFB连接，真的不会，求帮助
¥15 PVE8.2.7无法成功使用a5000的vGPU，什么原因
¥15 is not in the mmseg::model registry。报错，模型注册表找不到自定义模块。
¥15 安装quartus II18.1时弹出此error，怎么解决？
¥15 keil官网下载psn序列号在哪
¥15 想用adb命令做一个通话软件，播放录音

使用 scala 语言的 spark.sql 把 mysql 数据库中的数据增量抽取到 hudi 中

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新