• 全部
  • 关注
  • 有问必答
  • 等你来答

排行榜

  • 用户榜
  • 标签榜
  • 冲榜分奖金

频道

  • 编程语言
  • 前端
  • 大数据
  • 人工智能
  • 数据结构与算法
  • 运维
  • 服务器
  • 开发工具
  • 嵌入式
  • 其他
  • 网络
  • 后端
  • Java
  • 学习和成长
  • 微软技术
  • 移动开发
  • 游戏
  • 硬件开发
  • 吐槽问答
  • 小程序
  • 测试
  • Python
  • 安全
  • 云计算
  • 软件工程
  • 设计
  • 开放平台
  • PHP
  • 多彩生活
  • 区块链
  • HarmonyOS
  • 搜索
  • 设计模式
  • 产品/运营
  • 亚马逊云开发者
最新最热精华悬赏待回答 筛选
  • 0

    回答

我将hive的高可用配置文件hive-site.xml复制到spark的conf的目录下,hive是可以正常高可用工作的,启动Thrift JDBC/ODBC Server,Thrift JDBC/O

  • 1

用spoon连接Hadoop时,new cluster页面只有一个help,没有其他的按钮怎么办

回答 DIISN
采纳率33.3%
  • 6

    回答

同一个人日期有重复的去要去重 并且对照系统时间选取半年以内的数据   必须保留所有字段 平台是MPP框架下的Vertica数据库  这个表有几万条的数据   要求写sparkSQL 我的表名$t2

ace201007
采纳率0%
  • 1

saveAstextFile算子是怎么回事,路径是输出到一个文件夹吗?文件夹可以存文本?还有cat *命令是查看的什么东西呢?求解答

  • 1

    回答

运行python spark报错Traceback(most recent call last) C:\Users\tongmig\PycharmProjects\pythonProject\ven

  • 2

问题遇到的现象和发生背景 怎么给dataset增加一列并按照用户编号啊?比如uid,movieid,time1 1009 202201011 1002 202201042

  • 1

    回答

问题遇到的现象和发生背景 在jupyter notebook 中运行import findsparkfindspark.init()出现报错:Couldn't find Spark, make sur

  • 1

Sparksql里面toDF得到的是spark dataframe还是pandas dataframe?是spark dataframe吧?

oiaioiaioiaiaio
采纳率100%
  • 1

Spark程序为什么要用spark-submit提交呢?能不能直接运行程序呢?比如用java实现的spark程序,直接用Java -jar 执行。

  • spark
  • 5
  • 2022-09-16 19:01
andygkcx
采纳率100%
  • 2

    回答

用scala写,数据插入mysql,想几个sql(不同的数据dataframe更新不同的表)后再commit,数据为dataframe插入,现在用的foreachpartition,但会出现序列化问题

zoeLcjy
采纳率50%
  • 1

    回答

问题遇到的现象和发生背景 sparksql无法访问多分隔符的外部表 问题相关代码,请勿粘贴截图 测试代码 import org.apache.hadoop.conf.Configuration imp

book19897264
采纳率0%
  • 1

写Spark脚本处理大规模数据时,如何区分哪部分代码是在单机运行,哪部分代码是在集群运行?

九筒-
采纳率100%
  • 3

    回答

需求:用spark进行清洗,结果类似下图➕要清洗的代码,能加注释的加上注释。数据链接:https://share.weiyun.com/BadLnWZX

  • ¥20
  • spark
  • 78
  • 2022-08-24 10:53
  • 1

    回答

在我将spark.DataFrame覆盖写入到HIVE中时,报错提示我该表已经创建。覆盖写入不应该会将原来的数据删除再重写写入吗?而且我在hue查询的时候又显示该表没有创建? 谁能帮我讲讲这是

  • 1

在提交spark submit job 时 , 脚本内包含spark sql, 类似插入数据的脚本, 需要控制sql中的 日期变量 类似 python 与 shell传参的方式如何自定义传入scala

  • 3

    回答

我现在需要利用pyspark进行如pandas.groupby().apply()的操作聚合数据,但是一直报错 No module named 'pyarrow',但是我实际上安装了pyarrow这个

康春楠
采纳率25%
  • 1

    回答

问题遇到的现象和发生背景 想在win10环境下安装spark, java,javac,scala,均可运行,spark-shell不能运行。求解决。 问题相关代码,请勿粘贴截图 C:\Users\so

  • spark
  • 14
  • 2022-08-16 23:10
  • 1

    回答

用python做spark集群项目的时候,远程解释器运行,报错 AttributeError: module 'pyspark.rdd' has no attribute 'V'用本地解释器好使,把代

  • 10

    回答

Java spark创建线程2万多个,无法回收, 导致服务器所有的java程序 都无法创建新的线程而停止 代码 运行结果及报错内容 初步发现 JavaDStream foreachRDD时

  • 4

    回答

sparkStreaming处理时出现问题 这是什么啊,程序还是能接着运行的,网上搜也搜不到

code()
采纳率0%
  • 1

    回答

(HIVE/SPARK)建表语句如下:create database if not exists test;use test;CREATE TABLE if not exists test.test

weixin_45946856
采纳率0%
  • 1

    回答

有啥比较好的图计算入门推荐资料书籍有啥比较好的图计算入门推荐资料书籍

  • 3

    回答

spark该怎么做😭😭,很重要,根本不知道怎么做,而且自己一迷迷糊糊,求各位看看

m0_73056362
采纳率0%
  • 4

    回答

A 和B两个表的 日期都是日期型的求A表和B表地点相同且 B表的时间小于A表时间1天的所有数据 如图黄色行求A表和B表地点相同且 B表的时间小于A表时间1天的所有数据 如图黄色行求A表和B表地点相

ace201007
采纳率0%
  • 1

    回答

执行pyspark可以按照下列方式直接执行吗 python pyspark.py

  • 2

在看spark官方文档时遇到一个问题,用java写spark structured streaming的flatMap的参数为什么不能直接写lambda函数,却要在参数前面加上(FlatMapFunc

weixin_43750124
采纳率100%
  • 1

    回答

Elasticsearch大数据下怎么去重? 目前Elasticsearch集群中索引中有7亿条数据,1Tb,字段10个,要求对账号字段进行去重,返回全部的不重复账号。使用Filnk或者spark全量

  • 4

    回答

Linux升级glibc 2.29 配置configure../configure --prefix=/usr --disable-profile --enable-add-ons --with-he

qfshdjs
采纳率0%
  • 3

    回答

业务中遇到业务方提需求,求一个指标,xx_ratio 分渠道(a,b,c等等) 排序,倒数25%的人进入观察池子,希望可以同时看到连续出现池子的次数,及累计出现在池子的次数。统计维度为周。 例如,6.

Gracezzz06
采纳率0%
  • 1

    回答

我的Ubuntu什么包都不能安装了。更新也不行了,不知道该怎么解决。

  • spark
  • 11
  • 2022-06-29 16:31