• 全部
  • 关注
  • 有问必答
  • 等你来答

排行榜

  • 用户榜
  • 标签榜
  • 冲榜分奖金

频道

  • 编程语言
  • 前端
  • Java
  • 后端
  • Python

活动

  • C站认证
  • 大咖来了
  • 悦读时间
最新最热悬赏待回答 筛选
  • 2

  • 37

    浏览

spark-shell命令读取HDFS文件时文件不存在,读取本地文件是存在的

回答 大数据爱好者1
采纳率100%
2021-08-03 17:06
  • 1

    回答

  • 29

    浏览

@[toc] 0 原因猜测 每次对原标进行upsert操作,hoodie都会产生log,然后进行compaction,从而导致该时间点以前的增量查询无法操作。 1 现象重现 下面是对原标进行的所有操作

回答 繁星蓝雨
采纳率0%
2021-07-30 19:50
  • 1

    回答

  • 13

    浏览

使用foreachPartition的时候发现,除println能正常打印外,其他的代码都没有执行,请大家们分析一下foreachPartition为什么不执行其他代码呢?代码如下: data.f

回答 jiangmingzhong
采纳率0%
2021-07-30 17:12
  • 3

    回答

  • 18

    浏览

虚拟机内存2g,hadoop分布式集群😭

回答 import kuaile
采纳率0%
2021-07-29 23:01
  • 2

  • 16

    浏览

参考了你的spark log4j设置方法,成功将日志按天输出到日志,但是又碰到一个新问题,那就是我使用的时standalone模式,开启了history server 还有必要将日志输出到文件吗,这样

禅蚕
采纳率100%
2021-07-23 10:09
  • 1

    回答

  • 11

    浏览

java中获取到Dataset dataSet之后,怎么对dataSet过滤,得到想要的数据?条件:字段A不等于枚举值1,字段B不等于枚举值2,要使得两个条件同时成立。使用filter时无法满足两个条

  • 2

    回答

  • 13

    浏览

使用spark SparkContext 读AWS s3数据,报如下错,是什么原因? Exception in thread "main" java.lang.VerifyError: Bad typ

  • 1

    回答

  • 10

    浏览

我用两个for循环倒是很简单:将a集合的每条数据和b集合的每条数据做计算。计算出距离。在距离区间就是我需要的a集合的数据,或者是需要的b集合数据想要使用spark或者fink应该如何实现

回答 tiger_angel
采纳率0%
2021-07-21 15:03
  • 1

    回答

  • 12

    浏览

启动livy的时候发现 Please initialize the log4j system properly.

回答 G___T___G
采纳率0%
2021-07-21 13:29
  • 1

    回答

  • 1

    浏览

比如前端第一次传7.1-7.4,想得出这段时间内的新增用户量,第二次传7.2-7.5号;由于我们这边的输入源是kafka,消费过一次一般就不消费了,像这种需求有办法在spark实时计算吗,输出到传统数

回答 donkey_g
采纳率0%
2021-07-16 09:14
  • 1

    回答

  • 3

    浏览

1、程序主类没有问题,包路径没有问题。2、master代码里面删除了,不是这个问题

回答 qq_36557533
采纳率0%
2021-07-13 23:37
  • 2

    回答

  • 14

    浏览

2TB的textfile文件,内容为一行一行的随机数字,如何进行排序文件在linux系统上数字不知道范围

回答 取酒还独倾
采纳率0%
2021-07-12 16:04
  • 2

    回答

  • 14

    浏览

myDF19.write.format("csv01").save("c:\data")java.lang.ClassNotFoundException: Failed to find data s

回答 m0_51469470
采纳率0%
2021-07-07 22:47