hudi有人会吗，这是遇到的问题


//代码

import org.apache.spark.sql.{SaveMode, SparkSession}

object hudi_1 {
  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder()
      .master("yarn")
      .appName("HudiExample")
      .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .config("spark.sql.hive.convertMetastoreParquet", "false")
      .enableHiveSupport()
      .getOrCreate()

    val mysqlUrl = "jdbc:mysql://192.168.23.45:3306/ds_db01"
    val mysqlUser = "root"
    val mysqlPassword = "123456"

    val mysqlDf = spark.read.format("jdbc")
      .option("url", mysqlUrl)
      .option("user", mysqlUser)
      .option("password", mysqlPassword)
      .option("driver", "com.mysql.jdbc.Driver")
      .option("dbTable", "ds_db01.customer_inf")
      .load()

    mysqlDf.write
      .format("org.apache.hudi")
      .option("hoodie.datasource.write.table.type", "COPY_ON_WRITE")
      .option("hoodie.table.name", "customer_inf")
      .option("hoodie.datasource.write.recordkey.field", "customer_inf_id")
      .option("hoodie.datasource.write.partitionpath.field", "etl_date")
      .option("hoodie.datasource.write.precombine.field", "modified_time")
      .option("hoodie.datasource.write.operation", "insert")
      .mode(SaveMode.Append)
      .save("hdfs://192.168.23.45:9000/user/hudi_2/table")



  }
}
//错误
(size: 11.9 KiB, free: 365.7 MiB)
2023-11-22 16:50:52,325 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 13.0 (TID 11) (bigdata1 executor 2): java.lang.NoSuchMethodError: org.apache.spark.sql.internal.SQLConf$.AVRO_REBASE_MODE_IN_WRITE()Lorg/apache/spark/internal/config/ConfigEntry;
    at org.apache.hudi.org.apache.spark.sql.avro.AvroSerializer.<init>(AvroSerializer.scala:65)
    at org.apache.hudi.org.apache.spark.sql.avro.HoodieSpark3_1AvroSerializer.<init>(HoodieSpark3_1AvroSerializer.scala:26)
    at org.apache.spark.sql.adapter.Spark3_1Adapter.createAvroSerializer(Spark3_1Adapter.scala:45)
    at org.apache.hudi.AvroConversionUtils$.createInternalRowToAvroConverter(AvroConversionUtils.scala:81)
    at org.apache.hudi.HoodieSparkUtils$.$anonfun$createRdd$2(HoodieSparkUtils.scala:178)
    at org.apache.spark.rdd.RDD.$anonfun$mapPartitions$2(RDD.scala:863)
    at org.apache.spark.rdd.RDD.$anonfun$mapPartitions$2$adapted(RDD.scala:863)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:373)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:337)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:373)
    at org.apache.spark.rdd.RDD.$anonfun$getOrCompute$1(RDD.scala:386)
    at org.apache.spark.storage.BlockManager.$anonfun$doPutIterator$1(BlockManager.scala:1440)
    at org.apache.spark.storage.BlockManager.org$apache$spark$storage$BlockManager$$doPut(BlockManager.scala:1350)
    at org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:1414)
    at org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:1237)
    at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:384)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:335)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:373)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:337)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:373)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:337)
    at org.apache.spark.shuffle.ShuffleWriteProcessor.write(ShuffleWriteProcessor.scala:59)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:99)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:52)
    at org.apache.spark.scheduler.Task.run(Task.scala:131)
    at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:497)
    at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1439)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:500)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)

2023-11-22 16:50:52,327 INFO scheduler.TaskSetManager: Starting task 0.1 in stage 13.0 (TID 12) (bigdata1, executor 2, partition 0, PROCESS_LOCAL, 4299 bytes) taskResourceAssignments Map()
2023-11-22 16:50:52,424 INFO scheduler.TaskSetManager: Lost task 0.1 in stage 13.0 (TID 12) on bigdata1, executor 2: java.lang.NoSuchMethodError (org.apache.spark.sql.internal.SQLConf$.AVRO_REBASE_MODE_IN_WRITE()Lorg/apache/spark/internal/config/ConfigEntry;) [duplicate 1]
2023-11-22 16:50:52,425 INFO scheduler.TaskSetManager: Starting task 0.2 in stage 13.0 (TID 13) (bigdata1, executor 2, partition 0, PROCESS_LOCAL, 4299 bytes) taskResourceAssignments Map()
2023-11-22 16:50:52,498 INFO scheduler.TaskSetManager: Lost task 0.2 in stage 13.0 (TID 13) on bigdata1, executor 2: java.lang.NoSuchMethodError (org.apache.spark.sql.internal.SQLConf$.AVRO_REBASE_MODE_IN_WRITE()Lorg/apache/spark/internal/config/ConfigEntry;) [duplicate 2]
2023-11-22 16:50:52,500 INFO scheduler.TaskSetManager: Starting task 0.3 in stage 13.0 (TID 14) (bigdata2, executor 1, partition 0, PROCESS_LOCAL, 4299 bytes) taskResourceAssignments Map()
2023-11-22 16:50:52,532 INFO storage.BlockManagerInfo: Added broadcast_11_piece0 in memory on bigdata2:42183 (size: 11.9 KiB, free: 366.3 MiB)
2023-11-22 16:51:00,416 INFO scheduler.TaskSetManager: Lost task 0.3 in stage 13.0 (TID 14) on bigdata2, executor 1: java.lang.NoSuchMethodError (org.apache.spark.sql.internal.SQLConf$.AVRO_REBASE_MODE_IN_WRITE()Lorg/apache/spark/internal/config/ConfigEntry;) [duplicate 3]
2023-11-22 16:51:00,418 ERROR scheduler.TaskSetManager: Task 0 in stage 13.0 failed 4 times; aborting job
2023-11-22 16:51:00,423 INFO cluster.YarnScheduler: Removed TaskSet 13.0, whose tasks have all completed, from pool 
2023-11-22 16:51:00,427 INFO cluster.YarnScheduler: Cancelling stage 13
2023-11-22 16:51:00,427 INFO cluster.YarnScheduler: Killing all running tasks in stage 13: Stage cancelled
2023-11-22 16:51:00,428 INFO scheduler.DAGScheduler: ShuffleMapStage 13 (countByKey at HoodieJavaPairRDD.java:105) failed in 9.605 s due to Job aborted due to stage failure: Task 0 in stage 13.0 failed 4 times, most recent failure: Lost task 0.3 in stage 13.0 (TID 14) (bigdata2 executor 1): java.lang.NoSuchMethodError: org.apache.spark.sql.internal.SQLConf$.AVRO_REBASE_MODE_IN_WRITE()Lorg/apache/spark/internal/config/ConfigEntry;
    at org.apache.hudi.org.apache.spark.sql.avro.AvroSerializer.<init>(AvroSerializer.scala:65)
    at org.apache.hudi.org.apache.spark.sql.avro.HoodieSpark3_1AvroSerializer.<init>(HoodieSpark3_1AvroSerializer.scala:26)
    at org.apache.spark.sql.adapter.Spark3_1Adapter.createAvroSerializer(Spark3_1Adapter.scala:45)
    at org.apache.hudi.AvroConversionUtils$.createInternalRowToAvroConverter(AvroConversionUtils.scala:81)
    at org.apache.hudi.HoodieSparkUtils$.$anonfun$createRdd$2(HoodieSparkUtils.scala:178)
    at org.apache.spark.rdd.RDD.$anonfun$mapPartitions$2(RDD.scala:863)
    at org.apache.spark.rdd.RDD.$anonfun$mapPartitions$2$adapted(RDD.scala:863)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:373)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:337)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:373)
    at org.apache.spark.rdd.RDD.$anonfun$getOrCompute$1(RDD.scala:386)
    at org.apache.spark.storage.BlockManager.$anonfun$doPutIterator$1(BlockManager.scala:1440)
    at org.apache.spark.storage.BlockManager.org$apache$spark$storage$BlockManager$$doPut(BlockManager.scala:1350)
    at org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:1414)
    at org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:1237)
    at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:384)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:335)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:373)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:337)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:373)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:337)
    at org.apache.spark.shuffle.ShuffleWriteProcessor.write(ShuffleWriteProcessor.scala:59)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:99)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:52)
    at org.apache.spark.scheduler.Task.run(Task.scala:131)
    at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:497)
    at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1439)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:500)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)

Driver stacktrace:
2023-11-22 16:51:00,431 INFO scheduler.DAGScheduler: Job 9 failed: countByKey at HoodieJavaPairRDD.java:105, took 9.614751 s
Exception in thread "main" org.apache.hudi.exception.HoodieUpsertException: Failed to upsert for commit time 20231122165012889
    at org.apache.hudi.table.action.commit.BaseWriteHelper.write(BaseWriteHelper.java:64)
    at org.apache.hudi.table.action.commit.SparkInsertCommitActionExecutor.execute(SparkInsertCommitActionExecutor.java:45)
    at org.apache.hudi.table.HoodieSparkCopyOnWriteTable.insert(HoodieSparkCopyOnWriteTable.java:118)
    at org.apache.hudi.table.HoodieSparkCopyOnWriteTable.insert(HoodieSparkCopyOnWriteTable.java:97)
    at org.apache.hudi.client.SparkRDDWriteClient.insert(SparkRDDWriteClient.java:180)
    at org.apache.hudi.DataSourceUtils.doWriteOperation(DataSourceUtils.java:204)
    at org.apache.hudi.HoodieSparkSqlWriter$.write(HoodieSparkSqlWriter.scala:329)
    at org.apache.hudi.DefaultSource.createRelation(DefaultSource.scala:183)
    at org.apache.spark.sql.execution.datasources.SaveIntoDataSourceCommand.run(SaveIntoDataSourceCommand.scala:46)
    at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult$lzycompute(commands.scala:70)
    at org.apache.spark.sql.execution.command.ExecutedCommandExec.sideEffectResult(commands.scala:68)
    at org.apache.spark.sql.execution.command.ExecutedCommandExec.doExecute(commands.scala:90)
    at org.apache.spark.sql.execution.SparkPlan.$anonfun$execute$1(SparkPlan.scala:180)
    at org.apache.spark.sql.execution.SparkPlan.$anonfun$executeQuery$1(SparkPlan.scala:218)
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
    at org.apache.spark.sql.execution.SparkPlan.executeQuery(SparkPlan.scala:215)
    at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:176)
    at org.apache.spark.sql.execution.QueryExecution.toRdd$lzycompute(QueryExecution.scala:132)
    at org.apache.spark.sql.execution.QueryExecution.toRdd(QueryExecution.scala:131)
    at org.apache.spark.sql.DataFrameWriter.$anonfun$runCommand$1(DataFrameWriter.scala:989)
    at org.apache.spark.sql.execution.SQLExecution$.$anonfun$withNewExecutionId$5(SQLExecution.scala:103)
    at org.apache.spark.sql.execution.SQLExecution$.withSQLConfPropagated(SQLExecution.scala:163)
    at org.apache.spark.sql.execution.SQLExecution$.$anonfun$withNewExecutionId$1(SQLExecution.scala:90)
    at org.apache.spark.sql.SparkSession.withActive(SparkSession.scala:772)
    at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:64)
    at org.apache.spark.sql.DataFrameWriter.runCommand(DataFrameWriter.scala:989)
    at org.apache.spark.sql.DataFrameWriter.saveToV1Source(DataFrameWriter.scala:438)
    at org.apache.spark.sql.DataFrameWriter.saveInternal(DataFrameWriter.scala:415)
    at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:293)
    at hudi_1$.main(hudi_1.scala:36)
    at hudi_1.main(hudi_1.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.spark.deploy.JavaMainApplication.start(SparkApplication.scala:52)
    at org.apache.spark.deploy.SparkSubmit.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:951)
    at org.apache.spark.deploy.SparkSubmit.doRunMain$1(SparkSubmit.scala:180)
    at org.apache.spark.deploy.SparkSubmit.submit(SparkSubmit.scala:203)
    at org.apache.spark.deploy.SparkSubmit.doSubmit(SparkSubmit.scala:90)
    at org.apache.spark.deploy.SparkSubmit$$anon$2.doSubmit(SparkSubmit.scala:1030)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:1039)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 13.0 failed 4 times, most recent failure: Lost task 0.3 in stage 13.0 (TID 14) (bigdata2 executor 1): java.lang.NoSuchMethodError: org.apache.spark.sql.internal.SQLConf$.AVRO_REBASE_MODE_IN_WRITE()Lorg/apache/spark/internal/config/ConfigEntry;
    at org.apache.hudi.org.apache.spark.sql.avro.AvroSerializer.<init>(AvroSerializer.scala:65)
    at org.apache.hudi.org.apache.spark.sql.avro.HoodieSpark3_1AvroSerializer.<init>(HoodieSpark3_1AvroSerializer.scala:26)
    at org.apache.spark.sql.adapter.Spark3_1Adapter.createAvroSerializer(Spark3_1Adapter.scala:45)
    at org.apache.hudi.AvroConversionUtils$.createInternalRowToAvroConverter(AvroConversionUtils.scala:81)
    at org.apache.hudi.HoodieSparkUtils$.$anonfun$createRdd$2(HoodieSparkUtils.scala:178)
    at org.apache.spark.rdd.RDD.$anonfun$mapPartitions$2(RDD.scala:863)
    at org.apache.spark.rdd.RDD.$anonfun$mapPartitions$2$adapted(RDD.scala:863)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:373)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:337)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:373)
    at org.apache.spark.rdd.RDD.$anonfun$getOrCompute$1(RDD.scala:386)
    at org.apache.spark.storage.BlockManager.$anonfun$doPutIterator$1(BlockManager.scala:1440)
    at org.apache.spark.storage.BlockManager.org$apache$spark$storage$BlockManager$$doPut(BlockManager.scala:1350)
    at org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:1414)
    at org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:1237)
    at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:384)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:335)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:373)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:337)
    at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
    at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:373)
    at org.apache.spark.rdd.RDD.iterator(RDD.scala:337)
    at org.apache.spark.shuffle.ShuffleWriteProcessor.write(ShuffleWriteProcessor.scala:59)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:99)
    at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:52)
    at org.apache.spark.scheduler.Task.run(Task.scala:131)
    at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:497)
    at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1439)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:500)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2023-11-22 17:01
关注
引自强大而免费的微信小程序：皆我百晓生。

问题分析：

根据错误日志，发现问题出在使用Hudi的过程中，具体是在写入数据时出现了NoSuchMethodError错误。根据错误信息可知，是由于缺少Avro Rebase Mode的配置引起的。

解决方案：

首先，确认使用的Hudi版本与Spark版本是否兼容。不同版本的Hudi可能需要不同版本的Spark支持。可以查阅相关文档或Hudi官方网站来获取版本兼容性信息。
如果版本兼容，尝试通过添加相关的依赖项来解决问题。可以在项目的build.sbt文件中添加以下依赖项：

libraryDependencies += "org.apache.avro" % "avro" % "1.8.2"

3.如果问题仍然存在，可以尝试更新Spark版本。根据错误信息，是由于缺少AVRO_REBASE_MODE_IN_WRITE配置导致的错误，可能是由于Spark的版本较低，不支持该配置。尝试更新Spark版本到较高的版本，并重新构建项目。

4.如果以上方法都无效，可以尝试使用较低版本的Hudi或Spark，或者使用其他的数据湖解决方案。

代码示例：

import org.apache.spark.sql.{SaveMode, SparkSession} object HudiExample { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .master("yarn") .appName("HudiExample") .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") .config("spark.sql.hive.convertMetastoreParquet", "false") .enableHiveSupport() .getOrCreate() val mysqlUrl = "jdbc:mysql://192.168.23.45:3306/ds_db01" val mysqlUser = "root" val mysqlPassword = "123456" val mysqlDf = spark.read.format("jdbc") .option("url", mysqlUrl) .option("user", mysqlUser) .option("password", mysqlPassword) .option("driver", "com.mysql.jdbc.Driver") .option("dbTable", "ds_db01.customer_inf") .load() mysqlDf.write .format("org.apache.hudi") .option("hoodie.datasource.write.table.type", "COPY_ON_WRITE") .option("hoodie.table.name", "customer_inf") .option("hoodie.datasource.write.recordkey.field", "customer_inf_id") .option("hoodie.datasource.write.partitionpath.field", "etl_date") .option("hoodie.datasource.write.precombine.field", "modified_time") .option("hoodie.datasource.write.operation", "insert") .mode(SaveMode.Append) .save("hdfs://192.168.23.45:9000/user/hudi_2/table") } }

以上是一个简单的使用Hudi写入数据的示例代码，将MySQL中的数据加载到DataFrame中，然后使用Hudi将DataFrame写入到HDFS的表中。注意替换相应的MySQL连接信息和Hudi配置信息。

希望以上解决方案能对你有帮助！如果还有其他问题，请随时提问。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于#flink整库同步#的问题，如何解决？ flink
2023-03-05 21:39

回答 1 已采纳你把全部报错复制到记事本发给我
用flinkcdc读取mysql数据,写入postgresql数据库,程序运行一段时间后挂了 flink
2022-11-11 14:34

回答 1 已采纳我觉得你可能日志定位错了，看逻辑应该只有去重算子有状态会造成CK超时状态过大崩溃重启，重启之后逻辑就类似你这个日志
java#Cannot invoke "java.lang.Integer.intValue()" eclipse java
2023-01-05 14:16

回答 3 已采纳 1.不要把null强制转换为int2.数据库里已经设置了主键自增，那么sql语句里不要再拼接这个字段3.你要操作数据库，那么sql的知识多少还是需要先了解一点，无非增删改查4个sql，不复杂的，不要太
2024年大数据最全使用Spark操作Hudi表详细教程_spark读取hudi(2)
2024-05-02 18:59

2401_84164527的博客【代码】2024年大数据最全使用Spark操作Hudi表详细教程_spark读取hudi(2)
打成war包之后服务器项目访问数据库时链接不上数据库
2017-11-16 06:42

回答 2 已采纳检查 jdbc.properties 文件的配置是否书写正确其次检车每个配置参数后面有没有空格如果有空格当你在每个参数结尾处按右向箭头时不会换行而是空一格如果没有空格会直接跳到第二行
2024年大数据最新实时数仓之实时数仓架构(Hudi)(1)，大数据开发组件化入门
2024-05-05 13:32

2401_84592081的博客实时UV/PV计算：去重计数指标一直依赖都是数据仓库设计领域的难题，由于本架构采用了doris，所以这部分指标加工如果没有特殊要求可以通过doris的bitmap实现；另一种实现思路是借助redis hyperloglog(由于改架构避免...
2024年大数据最全使用Spark操作Hudi表详细教程_spark读取hudi(1)，2024年最新hashmap面试题
2024-05-05 08:44

2401_84160087的博客【代码】2024年大数据最全使用Spark操作Hudi表详细教程_spark读取hudi(1)，2024年最新hashmap面试题。
2024年大数据最全使用Spark操作Hudi表详细教程_spark读取hudi，已拿意向书
2024-05-05 08:45

2401_84160361的博客有办法简化，可以将Hudi的配置加入到spark-defaults.conf配置文件中。通过这些设置，Hudi用户应该能够在指定的表路径下执行操作，并具有必要的HDFS和YARN权限，确保了对应用程序的顺利运行。2、分配给hudi用户以下...
大数据常见面试问题汇总
2023-07-12 12:50

Bigdata_shit的博客 5.3 项目架构 5.4 业务 5.5 优化or遇到的问题怎么解决第6章测试&上线流程 6.1 测试相关 6.1.1 公司有多少台测试服务器？ 6.1.2 测试服务器配置？ 6.1.3 测试数据哪来的？ 6.1.4 如何保证写的SQL正确性（重点） ...
猿创征文｜大数据bug笔记之利用Hudi将数据落地到HDFS
2022-09-09 21:42

ChlinRei的博客利用hudi落地数据到HDFS，报错详细：Cannot create hive connection jdbc:hive2://IP:10000 Required field 'serverProtocolVersion' is unset! org.apache.hadoop.security.AccessControlException: Permission ...
用实时计算释放当下企业大数据潜能
2024-08-30 16:07

Apache Flink的博客本文整理自阿里云高级产品解决方案架构师王启华（敖北）老师在 Flink Forward Asia 2023 中闭门会的分享。
【Iceberg】数据湖：下一代大数据的发展趋势
2023-08-31 23:11

G皮T的博客可以把数据湖认为是最新一代大数据技术平台，为了更好地理解数据湖的基本架构，我们先来看看大数据平台的演进过程，从而理解为什么要学习数据湖技术。
顺丰基于 Flink CDC + Hudi 推进实时业务落地
2023-07-19 20:00

Apache Flink的博客 大数据研发高级工程师唐尚文，在 Flink Forward Asia 2022 数据集成专场的分享。
Uber 是如何减少大数据平台的成本
2021-09-05 20:32

过往记忆的博客随着 Uber 业务的扩张，为其提供支持的基础数据呈指数级增长，因此处理成本也越来越高。当大数据成为我们最大的运营开支之一时，我们开始了一项降低数据平台成本的举措，该计划将挑战分为三部分：...
大数据概览
2023-12-23 22:49

子曰:心之所向的博客转换（transform）主要是针对数据仓库建立的模型，...数据存储：HDFS，Hbase，ES，类似于OLAP中的一些数据存储框架ClickHouse等等，有的是依赖HDFS，有的是不需要抵赖HDFS的，ClickHouse，Doris，最近的startRocks。
在 AWS Glue 中使用 Apache Hudi
2021-04-21 11:00

Laurence　的博客本文发表于Apache Hudi公众号，文章对Glue与Hudi的集成做了可行性分析和理论探索，并通过一个完整的示例演示了如何在Glue作业中使用Hudi，同时将将Hudi元数据同步到Glue Catalog。
数据平台、大数据平台、数据中台……傻傻分不清？这次终于有人讲明白了……...
2020-08-12 18:00

LinkTime_Cloud的博客点击“蓝字”关注我们造概念，在IT行业可不是一件陌生的事儿，中文博大精深，新名词、新概念往往简单准确，既可以被大众接受，又可以被专家把玩，真正做到雅俗共赏、各有趣味。近年来，数据中台之火...
30分钟掌握沧湖一体化：flink+hudi（干货，建议收藏）_flink hudi sink
2024-04-28 02:32

卿卿草原的博客最近遍览了各种网络安全类的文章，内容参差不齐，其中不伐有大佬倾力教学，也有各种不良机构浑水摸鱼，在收到几条私信，发现大家对一套完整的系统的网络安全从学习路线到学习资料，甚至是工具有着不小的需求。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 11月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月22日

悬赏问题

¥15 券商软件上市公司信息获取问题
¥100 ensp启动设备蓝屏，代码clock_watchdog_timeout
¥15 Android studio AVD启动不了
¥15 陆空双模式无人机怎么做
¥15 想咨询点问题，与算法转换，负荷预测，数字孪生有关
¥15 C#中的编译平台的区别影响
¥15 软件供应链安全是跟可靠性有关还是跟安全性有关？
¥15 电脑蓝屏logfilessrtsrttrail问题
¥20 关于wordpress建站遇到的问题！(语言-php)（相关搜索：云服务器）
¥15 【求职】怎么找到一个周围人素质都很高不会欺负他人，并且未来月薪能够达到一万以上（技术岗）的工作？希望可以收到写有具体，可靠，已经实践过了的路径的回答？

hudi有人会吗，这是遇到的问题

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新