程序员问答社区_开发者在线问题解答-CSDN问答

最新最热精华悬赏待回答筛选

3

回答

尚硅谷电商6.0，Hive on Spark配置

尚硅谷电商6.0安装spark配置 Hive on Spark使用可见的纯净版的，安装教程配置启动hive，创建表执行insert into table student values(1,'abc')

hive
spark
2
2026-04-20 21:37

回答 gg20220401

采纳率0%

python pyspark JDK java

在JDK17环境下pyspark代码运行报错。但是下面代码在配置环境下这段代码运行有警告错误，但是仍然能够正常运行。为什么图二报错。pyspark的版本目前是4.1.1，换成低版本和高版本的都不行，都

python
spark
pycharm
9
2026-04-06 16:34

2301_79603960

采纳率75%

Python安装pyspark后使用报错，如何解决？

什么原因，应该如何解决。正常使用，电脑上本来也有jdk，是因为没有配置环境变量吗。

python
java
spark
12
2026-03-26 16:03

2301_79603960

采纳率75%

2

回答

运行spark程序报错，如何解决？

pycharm开发spark程序豆包给的方案：在 PyCharm 中配置运行参数（推荐，符合课件要求） 1. 点击右上角运行配置下拉框 → 选择「编辑配置」2. 在「参数」一栏中填入输入输出路径（

spark
4
2026-03-20 23:17

回答 cricle870

采纳率0%

3

回答

学生学习行为分析系统数据从哪找？

我想要做学生学习行为分析系统但是没有真实数据不知道该怎么获取

spark
mysql
9
2026-03-02 19:07

回答 2301_77657774

采纳率0%

1

回答

kyuubi spark lineage集成Atlas

在使用apache kyuubi spark lineage插件集成Atlas过程中，出现报错，我使用版本是spark 3.5.3+Atlas 2.4.0报错内容如下： ```shell 26/02

spark
大数据
16
2026-02-07 16:35

回答地球在逃人员

采纳率0%

2

回答

linux ping不到外网

每次登陆我都测试ping百度，是成功的，但是最近在搞权限问题没管这个，要pip pyspark发现又连不上网了。我怀疑是开着虚拟机的时候我挂🪜问gemini导致网络出问题。但我不知道怎么解决，是修改

linux
spark
改行学IT
4
2026-01-09 10:35

回答 pq112358

采纳率0%

没找到这个iotdb的spark连接器，有谁找到了这个jar包吗？

想用Spark SQL的方式把Spark与Apache IoTDB连起来，官网截图如下，但还是没找到。

java
spark
iotdb
3
2025-12-27 14:03

红栈桑

采纳率100%

2

回答

代码和截图，价格可议

自选主题，Spark SQL编程或Spark StreamingL编程或Structured Streaming 编程，任选其一或综合运行，设计与实现一个Spark应用

spark
9
2025-12-03 10:21

回答 2301_81164970

采纳率0%

3

回答

ubuntukylin配置问题

在ubuntukylin配置过程中 java mysql hadoop hive spark均配置成功且可正常运行但启动hive时提示hadoop-evn.sh某行存在未闭合但是多次配置甚至重新

hadoop
hive
spark
3
2025-11-16 13:19

回答啥也不会的小白一枚

采纳率0%

3

回答

ubuntukylin配置hadoop和hive启动失败

java mysql hive hadoop均配置成功 hive和hadoop提示配置错误但可正常启动但运行spark失败提示hadoop配置错误

hadoop
hive
spark
4
2025-11-15 10:35

回答啥也不会的小白一枚

采纳率0%

3

回答

有没有数据集，推荐数据集！！

找不到数据集啊，数据量十万条以上，字段最少15个。主题随便了，求一个合适的数据集

python
spark
大数据
5
2025-10-22 12:10

回答了了一

采纳率0%

6

回答

关于#sql#的问题:SQL笔试(数据数仓)

在数仓中，有两张表，t1和t2,字段相同，user_id可能重复，如果t2表中没有，但是t1表中有，说明这条数据是新增数据，例如t1中user_id=4这一条数据。如果t2表中有，但是t1表中没做，则

sql
hive
spark
7
2025-10-11 23:45

回答南屿/

采纳率0%

3

回答

在集群中提交spark，卡住不动没反应

到这一步卡了很久，一直不动，jPS的各内容也有，怎么解决，网络连通性，spark也有，内存是4g，有两个从节点

spark
12
2025-09-24 16:31

回答 2401_83375416

采纳率90.9%

5

回答

你好，我刚学PySpark，报错了“10038：在一个非套接字上操作”，请问如何解决？

没有配置Hadoop环境，检查了Python.exe路径正确。问了ai不好使。

python
spark
hadoop
5
2025-09-21 20:21

回答 qwertz0

采纳率0%

5

回答

刚学PySpark，报错了“10038：在一个非套接字上操作”，如何解决？

没有配置Hadoop环境，检查了Python.exe路径正确，问了ai不好使

python
spark
hadoop
12
2025-09-21 19:48

回答 qwertz0

采纳率0%

5

回答

左关联后表内字段为空

a表关联b表后，取b表字段，但是结果为空是什么原因？是因为关联字段有空值导致的吗？

hive
sql
spark
6
2025-09-08 17:54

回答银子x

采纳率0%

spark配置gluten任务运行报错

2025-08-25 12:46:14,146 ERROR yarn.Client: Application diagnostics message: User class threw excepti

spark
14
2025-08-25 12:50

尘世壹俗人

采纳率84.6%

编译spark报错，有人遇到过吗

在编译spark322时，遇到了一个半天没解决的问题，编译环境maven363，java8，scala2.12.15 执行脚本 ./dev/make-distribution.sh --name dx

java
spark
11
2025-08-18 19:14

尘世壹俗人

采纳率84.6%

4

回答

关于spark数据分区分布的问题

具体问题是：按照HDFS数据分区规则，我认为最后的"/"应该在输出文件中不会出现占据两个字节的换行符步骤一：创建文件（！！注意这里的第三行没有换行符！！）步骤二：计算字节字节数 = 7

spark
大数据
hdfs
4
2025-07-30 13:24

回答沉淀の沙

采纳率0%

celeborn的http端口访问返回404

最近部署了spark的rss，使用celeborn，但奇怪的是，按照官方仓库中的方式打包和部署之后，spark任务能正常用celeborn提供的shuffle服务，但是celeborn服务的http端

spark
大数据
9
2025-07-29 12:45

尘世壹俗人

采纳率84.6%

4

回答

DS海豚调度器bug

DolphinScheduler工作流定义页面报错，分页查询工作流定义列表错误，导致工作流定义页面一直加载，历史的工作流定义也消失了，有无解决办法

hadoop
spark
40
2025-07-22 12:08

回答地球在逃人员

采纳率0%

5

回答

hadoop EMR集群spark离线任务优化

hadoop EMR集群spark离线任务优化生产两张表dwd_dsp_bid_basic_log_d 表和dwd_dsp_cps_bid_log_d 表，各取7天分区数据，input_size在50

spark
hadoop
sql
6
2025-07-11 15:50

回答地球在逃人员

采纳率0%

5

回答

有人能做这个吗，可不可以指导一下，已经搭建好了相关的集群，hadoop,mysql,hive,spark集群，需要用到IDEAR这个软件，在这个软件里面打包，最后结果要按要求得出结果

有人能做这个吗，可不可以指导一下，已经搭建好了相关的集群，hadoop,mysql,hive,spark集群，需要用到IDEAR这个软件，在这个软件里面打包，最后结果要按要求得出结果

spark
5
2025-07-06 00:30

回答 2401_83176690

采纳率0%

5

回答

spark实时处理并传输到mysql数据库时，显示流处理已启动，卡住很久不动然后报错是什么原因

spark实时处理并传输到mysql数据库时，显示流处理已启动，卡住很久不动然后报错是什么原因？我们的流程是爬取股票数据，3s刷新，然后传输到kafka里面，接着spark实时处理并存储到mysql

linux
数据库
spark
7
2025-06-23 19:47

回答 m0_75066946

采纳率0%

5

回答

PyCharm里调用map函数的时候报错感觉应该是hadoop的问题

最近在学pyspark 在使用map算子（如图一）的时候一直报错꒰>﹏< ꒱ （错误类型如图二）感觉应该是hadoop的问题但是相关环境变量也有配置（如三四五）有没有哪个人可

hadoop
spark
pycharm
10
2025-06-21 19:05

回答 2301_77093769

采纳率0%

6

回答

父子层级表，有八个层级想要分层展示当前层级的数据

有个父子层级的记录数据表，一共有八层，想要分层展示数据，有什么办法吗

sql
hive
spark
4
2025-06-14 13:02

回答 m0_66090955

采纳率0%

6

回答

hudi配置出现的问题

在安装配置hudi时输入命令“mvn clean package -DskipTests -Dspark2.4.4 -Dflink1.15 -Dscala-2.12 -Dhadoop.version

hive
spark
flink
7
2025-06-10 19:33

回答 OsmElite

采纳率0%

6

回答

pyspark运行df.show()时报错py4j，但是已经利用conda安装过了py4j

import pyspark.sql as spark_sql from pyspark.sql import SparkSession spark = SparkSession.builder \

python
spark
big data
37
2025-06-09 14:47

回答 Luo_sirsir

采纳率0%

5

回答

求一个Ubuntu系统的压缩包

这个系统中有配置好的spark，hadoop，Scala，sbt，IDE等环境

hadoop
spark
4
2025-06-07 17:04

回答壹决King

采纳率0%

尚硅谷电商6.0，Hive on Spark配置

python pyspark JDK java

Python安装pyspark后使用报错，如何解决？

运行spark程序报错，如何解决？

学生学习行为分析系统数据从哪找？

kyuubi spark lineage集成Atlas

linux ping不到外网

没找到这个iotdb的spark连接器，有谁找到了这个jar包吗？

代码和截图，价格可议

ubuntukylin配置问题

ubuntukylin配置hadoop和hive启动失败

有没有数据集，推荐数据集！！

关于#sql#的问题:SQL笔试(数据数仓)

在集群中提交spark，卡住不动没反应

你好，我刚学PySpark，报错了“10038：在一个非套接字上操作”，请问如何解决？

刚学PySpark，报错了“10038：在一个非套接字上操作”，如何解决？

左关联后表内字段为空

spark配置gluten任务运行报错

编译spark报错，有人遇到过吗

关于spark数据分区分布的问题

celeborn的http端口访问返回404

DS海豚调度器bug

hadoop EMR集群spark离线任务优化

有人能做这个吗，可不可以指导一下，已经搭建好了相关的集群，hadoop,mysql,hive,spark集群，需要用到IDEAR这个软件，在这个软件里面打包，最后结果要按要求得出结果

spark实时处理并传输到mysql数据库时，显示流处理已启动，卡住很久不动然后报错是什么原因

PyCharm里调用map函数的时候报错 感觉应该是hadoop的问题

父子层级表，有八个层级想要分层展示当前层级的数据

hudi配置出现的问题

pyspark运行df.show()时报错py4j，但是已经利用conda安装过了py4j

求一个Ubuntu系统的压缩包

PyCharm里调用map函数的时候报错感觉应该是hadoop的问题