• 全部
  • 关注
  • 有问必答
  • 等你来答

排行榜

  • 用户榜
  • 标签榜
  • 冲榜分奖金

频道

  • 编程语言
  • 后端
  • Python
  • Java
  • 前端
最新最热精华悬赏待回答 筛选
  • 0

    回答

依赖已经导入,我的scala(2.12.10)的版本也是和spark(3.0.3)的版本对应的,但在创建主函数的时候还是会红

  • 0

    回答

当groupby().apply()中使用pandas_udf函数时,会将全部数据分组后,每一组数据拉到内存中来,请问这里的内存是指各个executor中的内存还是指driver的内存?如果是exec

  • 3

工作中想求一行数组是否在很多个数字中,这时候想到了数据交集,但是搜了很多资料也没找到,求解惑 实现两个数组交集,或者这一组数组有没有数据在另外一组数组里

回答 亿码
采纳率100%
  • 1

    回答

如下为数据原表score 其中当课程course_id 为1时,代表课程为语文chinese, courese_id=2时 为数学math; course_id=3时,课程为english

回答 Slicent_lam
采纳率0%
  • 1

    回答

spark版本:2.4.0 提交脚本:spark2-submit --master local[3] --driver-memory 2g --executor-memory 1g --conf s

回答 wutian713
采纳率0%
  • 1

    回答

1.测试代码如下: package com.sparksql import org.apache.spark.sql.{DataFrame, SparkSession} object DataFr

别这么骄傲
采纳率0%
  • 1

    回答

问题遇到的现象和发生背景 现在在centos7虚拟机搭建好了三台hadoop集群,hadoop3.1.4版本。现在想搭建spark集群,请问应该选择什么版本的呢? 问题相关代码,请勿粘贴截图 运行结果

  • 1

    回答

windows下idea里运行spark代码报错 spark-shell可用 环境变量配置完成 Using Spark's default log4j profile: org/apache/spa

  • 1

    回答

代码功能:Scala语言编写的spark读取es库数据,读取到的json数据解析后存进临时视图表中,再通过sparksql将临时表中的数据一次性insert进hive表中代码最终是打包放到ds工具上进

回答 我是xlj
采纳率0%
  • 1

    回答

急急急基于淘宝商品的数据分析 有回报 懂的来呀

回答 coollllst
采纳率0%
  • 1

    回答

怎么用python把Excel文件中即含有日期单元格又含有文本单元格的某一列中的日期提取出来单独成一列其余无数据的单元格填充null

回答 倦35
采纳率50%
  • 1

    回答

Spark执行job脚本时(scala项目),不管是Shell还是Submit的方式,退出时总是报错 ERROR Configuration:error parsing conf mapred-def

TanDOU
采纳率0%
  • 1

    回答

运行环境: Linux:centos7.5CDH-6.3.0(cdh自带python2版本)anaconda3python3.8pymysql-1.0.2spark-2.4.0kylin-2.6.3a

回答 Dafer0818
采纳率0%
  • 1

    回答

就是 我已经在我电脑上的虚拟机上搭建好了spark环境 然后的话 我把这台虚拟机克隆之后 发给了其他电脑 其他电脑要想启用spark 需要修改哪些配置啊?

  • spark
  • 7
  • 2022-01-06 16:45
回答 wqlbsb
采纳率33.3%
  • 1

    回答

200W+条字符串,循环用多个正则去匹配,返回匹配到的结果,速度太慢了,怎么解决一下呢

回答 code_peasent
采纳率20%
  • 2

    回答

在做spark相关实验的时候发现,“将本地文件“/usr/local/spark/README.md”上传到HDFS的“/user/hadoop”目录下”这一步骤出了错,看不懂问题出在哪里,请赐教

  • 1

安装spark没出现问题,然后按照教程给的实验步骤,读取本地系统中文件,显示第一行内容,然后就报错了。 请问该如何解决?

雪雪雪野百香里
采纳率66.7%
  • 1

    回答

之前是拒绝连接的,后面我修改了本地的host文件里面的映射,那个 DESKTOP-QQR0E9B 变成了spark集群的地址。救命

Alanders
采纳率0%
  • 1

数据加工类测试如何描述自己做的项目 哪些是重点?

rod测试_
采纳率100%
  • 3

    回答

 ###### 用的是CDH6.1 hive是2.1 计算引擎是spark 在CDH新添加了个hue,然后在这里运行sql ,正常的 select name from tb_a ;都是没有问

  • 0

    回答

实时清洗使用spark submit提交任务的时候,根据接受的kafka数据量自动分配资源和task任务并且不影响集群上其他job执行

  • 4

    回答

问题遇到的现象和发生背景 读取hdfs上的数据,结果一直读的file 问题相关代码,请勿粘贴截图 scala> val inputRDD = sc.textFile("/datas/README

  • 2

问题遇到的现象和发生背景 hive on sparkflink任务中使用JDBC连接hive,数据入库,每次都是程序运行大概几个小时会报错误,hiveserver2停止,不知道是做什么原因导致该问题,

tian_chenwei
采纳率40%
  • 1

    回答

搭建Spark on yarn环境,配置IDEA本地pom包,使用python或者java爬虫爬取任意网站的数据,编写scala代码打包放在集群当中运行,最终程序运行的结果存放到mysql或者redi

ugbnn
采纳率33.3%
  • 1

    回答

问题遇到的现象和发生背景 最新在sprk-sql上开发,发现sort by的坑.话不多说,表结构 acct_idcurrency_codestmt_datebal_flagremarkA0011562

(◍•ᴗ•◍)ゝ
采纳率0%
  • 1

    回答

问题遇到的现象和发生背景 sparkStream相关代码缺少依赖包,不知是否方便提供 问题相关代码,请勿粘贴截图 运行结果及报错内容 我的解答思路和尝试过的方法 我想要达到的结果 目前按照之前几

  • 1

    回答

spark读取数据库数据,作成DF,然后.foreach 没有进入循环 代码如下 运行结果如下 是不是这种DF不行?数据肯定是有的 我想要达到的结果

xiaoshanzhuzz
采纳率0%
  • 1

    回答

问题遇到的现象和发生背景 环境:hive on saprk (hive3.1.2 spark3.0.0)先使用group by对create_date去重,然后使用datediff函数对create

纯属小小白
采纳率0%
  • 1

同样的一条sql,传统数据库在建立索引的情况下,耗时2s,但是spark+hbase 耗时10+分钟。 SELECT t1.bsm, bt2.bsm FROM testtab

weixin_48484941
采纳率100%
  • 1

pycharm插入多条数据到mysql数据库只有一条插入成功其他都失败是什么原因怎么解决有使用commit数据库连接也没有问题求解!!!

倦35
采纳率50%