【提问】Spark使用binaryFile加载二进制文件，如何处理

在使用binaryFile加载二进制文件之后，得到的是包含[String,PortableDataStream]的pair的RDD。我继续对得到的RDD使用map，使用PortableDataStream的toArray方法得到二进制文件转换之后的Byte数组。有如下几个问题：
1，我该如何我该如何将这个Byte的数组按四个Byte合并为一个float？
2，这个portableDataStream是如何做到并行计算的？
3，生成的RDD如何保证如何存储为目标格式的HDFS文件格式，比如我要处理一张图片，调用savaAsTextFiles之后得到的是HDFS的文件格式，那么我在RDD中的数据是怎样的呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
进击的小飞 2016-03-05 13:58
关注
楼主刚开始学spark还望各位高手指教指教~~~ ^_^

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
hadoop和大数据、spark的关系该怎么理解？ hadoop spark 大数据
2022-06-23 13:55

回答 1 已采纳 Hadoop和Spark都是处理大数据的框架。就象你说关系型数据库，这只是一个概念，但是代表了一系列的含意，比如数据是结构化的，基于关系模型存储的。而MySQL、Oracle、SqlServer这些就
Spark textFile 不读取文件第一行 spark
2017-05-07 10:30

回答 3 已采纳跳过第一行: lines = sc.textFile('path_to_data') header = lines.first() lines = lines.filter(row =>
大数据基础课第三课 spark_core、Spark_sql&Spark_streaming
2022-04-27 10:45

办公模板库素材蛙的博客 spark 入门课程目标：了解spark概念知道spark的特点（与hadoop对比）独立实现spark local模式的启动 1.1 spark概述 1、什么是spark 基于内存的计算引擎，它的计算速度非常快。但是仅仅只涉及到数据的计算，...
如何使用spark mlib进行疾病概率的预测？ spark 决策树大数据
2022-02-09 14:07

回答 1 已采纳二分类本来输出的就是概率，只不过平时习惯性得到0 和 1 是概率划分过界限后得到的结果。很多模型也都是给出了两个预测接口 predict, predict_proba
hive on spark 打开文件过多错误 hadoop hive spark
2022-05-19 19:51

回答 3 已采纳你用的beeline方式连接的吧 beeline连接是有限的当连接超出的时候就会出问题你尝试一下直接连接hivecli 应该会好一点
大数据框架中的hadoop和hive spark presto tez是什么关系 hadoop hive spark
2022-12-24 10:29

回答 1 已采纳 Hadoop是一个分布式计算框架，可以在大数据集上运行分布式应用程序。它由许多组件组成，包括HDFS（分布式文件系统）和MapReduce（分布式计算引擎）。Hive是一个基于Hadoop的数据仓库系
Spark基础【RDD持久化、分区器、文件保存读取】
2022-08-18 00:00

OneTenTwo76的博客自定义分区器继承Partitioner重写方法（2 + 2）numPartitions：准备分几个区getPartition：根据数据的K返回所在的分区编号，从0开始如果有两个连续的相同分区操作，会发生什么第二个partitionBy会不会有shuffle操作/...
虚拟机里安装spark时报错 hadoop spark 大数据
2022-12-07 13:39

回答 1 已采纳缺少jar包：org/slf4j/impl/StaticLoggerBinder，添加一下slf4j-nop-xxx.jar
求解答：如何使用sparksql进行模糊查询？ scala spark 大数据
2022-05-19 17:16

回答 1 已采纳 SELECT SUBSTR(NAME,1,INSTR(NAME,'(')-1),COUNT(1)FROM (SELECT '顶层(共20层)' NAME UNION ALLSELECT '顶层(共21
spark-submit提交py文件，一直提示资源不足~~ hadoop python spark
2021-07-16 08:59

回答 1 已采纳第一种：是spark节点的内存满了，加大执行内存，内存可以在spark的配置文件—>spark-env.sh中可以看到。这个配置文件路径在：/usr/local/spark-2.4.0-bin-
大数据学习06-Spark分布式集群部署
2023-08-31 15:44

小火柴127的博客 Apache Spark 是一个快速的通用集群计算...它还支持一系列丰富的高级工具：处理结构化数据的 Spark SQL，用于机器学习的 MLlib，控制图、并行图操作和计算的一组算法和工具的集合 GraphX，数据流处理 Spark Streaming。
spark-shell命令读取HDFS文件时文件不存在 spark 有问必答
2021-08-03 17:06

回答 2 已采纳先看看hadoop集群有没有正常开启，检查hdfs路径有没有问题
apache spark_使用Apache Spark处理Wikipedia时吸取的教训
2020-07-25 17:32

cumian9828的博客 apache sparkby Siddhesh Rane 由... 使用Apache Spark处理Wikipedia时吸取的教训 (Lessons learned while processing Wikipedia with Apache Spark) Apache Spark is an open-source fault-tolerant cluster-compu...
大数据Spark External DataSource
2021-08-25 23:22

赵广陆的博客目录1 数据源与格式2 加载/保存数据2.1 Load 加载数据2.2 Save 保存数据2.3 案例演示2.4 保存模式（SaveMode）3 parquet 数据4 text 数据5 json 数据6 csv 数据7 rdbms 数据8 hive 数据8.1 spark-shell 集成 Hive8.2...
没有解决我的问题, 去提问

悬赏问题

¥15 安卓adb backup备份应用数据失败
¥15 eclipse运行项目时遇到的问题
¥15 关于#c##的问题：最近需要用CAT工具Trados进行一些开发
¥15 南大pa1 小游戏没有界面，并且报了如下错误，尝试过换显卡驱动，但是好像不行
¥15 没有证书，nginx怎么反向代理到只能接受https的公网网站
¥50 成都蓉城足球俱乐部小程序抢票
¥15 yolov7训练自己的数据集
¥15 esp8266与51单片机连接问题(标签-单片机|关键词-串口)（相关搜索：51单片机|单片机|测试代码）
¥15 电力市场出清matlab yalmip kkt 双层优化问题
¥30 ros小车路径规划实现不了，如何解决？(操作系统-ubuntu)

【提问】Spark使用binaryFile加载二进制文件，如何处理

4条回答 默认 最新

悬赏问题

4条回答默认最新