进击的小飞 2016-03-05 13:48 采纳率: 0%
浏览 4540

【提问】Spark使用binaryFile加载二进制文件,如何处理

在使用binaryFile加载二进制文件之后,得到的是包含[String,PortableDataStream]的pair的RDD。我继续对得到的RDD使用map,使用PortableDataStream的toArray方法得到二进制文件转换之后的Byte数组。有如下几个问题:
1,我该如何我该如何将这个Byte的数组按四个Byte合并为一个float?
2,这个portableDataStream是如何做到并行计算的?
3,生成的RDD如何保证如何存储为目标格式的HDFS文件格式,比如我要处理一张图片,调用savaAsTextFiles之后得到的是HDFS的文件格式,那么我在RDD中的数据是怎样的呢?

  • 写回答

4条回答

  • 进击的小飞 2016-03-05 13:58
    关注

    楼主刚开始学spark还望各位高手指教指教~~~ ^_^

    评论

报告相同问题?

悬赏问题

  • ¥15 python天天向上类似问题,但没有清零
  • ¥30 3天&7天&&15天&销量如何统计同一行
  • ¥30 帮我写一段可以读取LD2450数据并计算距离的Arduino代码
  • ¥15 C#调用python代码(python带有库)
  • ¥15 矩阵加法的规则是两个矩阵中对应位置的数的绝对值进行加和
  • ¥15 活动选择题。最多可以参加几个项目?
  • ¥15 飞机曲面部件如机翼,壁板等具体的孔位模型
  • ¥15 vs2019中数据导出问题
  • ¥20 云服务Linux系统TCP-MSS值修改?
  • ¥20 关于#单片机#的问题:项目:使用模拟iic与ov2640通讯环境:F407问题:读取的ID号总是0xff,自己调了调发现在读从机数据时,SDA线上并未有信号变化(语言-c语言)