从hdfs中读取数据并用spark操作时出现问题

我从集群环境的hdfs中读取数据,然后处理数据时出现问题,在循环里面添加的对象在循环外就没有了,初学spark和scala,请大佬指点.
object Test {

case class Passenger(name: String, txn_date: String, txn_time: String, txn_station: String, ticket_type: String, trans_code: String, sub: String, txn_station_id: String)

def main(args: Array[String]): Unit = {
val inputFile = "hdfs://Master:9000/user/hadoop/input/tmp.txt"
val conf = new SparkConf().setAppName("WordCount")
val sc = new SparkContext(conf)

val text = sc.textFile(inputFile) //25 lines like "000025643       "    "20141201"  "060912"    "0328"  "88"    "22"    "" from hdfs
val Passengers = new ArrayBuffer[Passenger]()
for (line <- text) {
  val points = for (i <- 0 until (line.length) if (line.charAt(i) == '"')) yield {
    i
  }
  val items = for (i <- 0 until (points.length) if (i % 2 == 0)) yield {
    if (!line.slice(points(i).toString.toInt + 1, points(i + 1).toString.toInt).equals("")) {
      line.slice(points(i).toString.toInt + 1, points(i + 1).toString.toInt).trim
    }
    else
      "null"
  }
  val tmp:Passenger=new Passenger(items(0).trim, items(1), items(2), items(3), items(4), items(5), "null", items(6))
  println(tmp) //it is Passenger(000026853,20141201,060921,0325,88,21,null,null) [no problem]
  Passengers.append(tmp)
  println(Passengers.length) //1,2,3.....25 [no problem]
}
println("----------------------------" + Passengers.length) //it is 0!!!! why?
val passengersArray = Passengers.toArray

val customersRDD = sc.parallelize(passengersArray)
val customersDF = customersRDD.toDF()

}
}

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-10-27 15:50
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
看下这篇博客，也许你就懂了，链接：Spark读取主机HDFS报错解决

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

spark-shell命令读取HDFS文件时文件不存在 spark 有问必答
2021-08-03 17:06

回答 2 已采纳先看看hadoop集群有没有正常开启，检查hdfs路径有没有问题
客户端去操作hdfs时，出现异常 hadoop hdfs java 大数据
2018-10-17 11:52

回答 2 已采纳 https://issues.apache.org/jira/browse/HADOOP-14586 是不是用了java9版本，java版本降低一下试试
spark 调用SparkPi时，显示拒绝连接 hadoop spark 大数据
2023-03-15 15:46

回答 1 已采纳这篇文章：spark 运行自带样例SparkPi、spark-examples报错也许有你想要的答案，你可以看看
大数据读取可视化工具和资料.zip
2021-07-12 08:42

处理大数据的关键步骤之一就是有效地读取数据，这可能涉及到分布式文件系统（如Hadoop的HDFS）以及专门的大数据处理框架（如Spark）。这些系统允许用户并行处理数据，提高读取效率。接下来是可视化部分，这是数据...
HDFS集群数据迁移怎么做？ hdfs 大数据
2022-11-03 17:15

回答 2 已采纳 hadoop distcp webhdfs://源集群:50070/源目录 webhdfs://目标集群:50070/目标目录
hadoop读取hdfs文件：No such file or directory: `hdfs://localhost:9000/user/hadoop' hadoop hdfs spark
2022-10-09 17:22

回答 1 已采纳可以考虑换个目录试一下比如：hdfs dfs -put /usr/local/spark/README.MD /
Hadoop搭建完之后启动hdfs时出现下图这种问题 centos linux
2021-04-22 14:12

回答 1 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 你看下这篇博客吧, 应该有用👉 ：hadoop hdfs记录踩到的坑如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 以帮助更多的人
《Spark编程基础及项目实践》课后习题及答案1.pdf
2022-04-04 09:23

6. **Hadoop与Spark操作**：在Hadoop环境中，可以通过Shell命令创建和上传文件到HDFS，使用Spark Shell读取和处理数据。在示例中，通过`hdfs dfs -put`命令将文件上传到HDFS，然后在Spark Shell中利用`sc.textFile`...
Python 处理HDFS log 数据 hdfs python
2023-01-18 04:55

回答 2 已采纳您好，我看了这个LOG数据，如果使用切分字符串的方法，2000行里最长的共有111个字段。最关键的是会有数字类型和文本类型组合成文本类型，而这部分是字符串切割无法区分的。所以正则还是香呀，一步到位 i
Hive on Spark配置问题 hive spark
2022-12-08 11:36

回答 3 已采纳 hive-seit.xml文件里面必须要添加设置执行引擎为spark
HDFS排除AddblockRequestProto中的数据节点 hadoop hdfs
2016-11-08 06:12

回答 1 已采纳 I found the solution that, first abandon the block and then request the new block. In the previous
基于Hadoop和spark由java和python语言开发的电影推荐系统.zip
2024-03-06 22:36

Spark作为新一代的大数据处理框架，其核心优势在于内存计算，可以大幅减少I/O操作，提高数据处理速度。Spark提供了RDD（Resilient Distributed Datasets）弹性分布式数据集，以及SQL、Streaming、MLlib（机器学习库...
进行hdfs的上下载的时候，出现了空指针异常的问题 hadoop java maven
2022-12-27 17:05

回答 1 已采纳望采纳！点击该回答右侧的“采纳”按钮即可采纳！！！我猜原因可能是某些对象没有正确初始化。你可以尝试在这些对象使用前加上非空判断，或者检查是否存在某些配置参数或路径写错的情况。例如，你可以在主函数
04_大数据技术之SparkStreaming（2.0)
2020-11-07 15:49

okbin1991的博客第1章Spark Streaming概述 1.1离线和实时概念数据处理的延迟离线计算就是在计算开始前已知所有输入数据，输入数据不会产生变化，一般计算量级较大，计算时间也较长。例如今天早上一点，把昨天累积的日志，计算...
大数据组件spark hadoop hive简单介绍
2022-08-11 09:50

飞锡2024的博客 spark 单机启动 spark-shell 集群启动 /usr/local/spark-2.4.5-bin-hadoop2.7/sbin/start-all.sh 提交任务 1.打包python环境: whereis python # /usr/local/python3/ zip -r py_env.zip py_env 2.spark提交参考：...
没有解决我的问题, 去提问

悬赏问题

¥15 如何让企业微信机器人实现消息汇总整合
¥50 关于#ui#的问题：做yolov8的ui界面出现的问题
¥15 如何用Python爬取各高校教师公开的教育和工作经历
¥15 TLE9879QXA40 电机驱动
¥20 对于工程问题的非线性数学模型进行线性化
¥15 Mirare PLUS 进行密钥认证？（详解）
¥15 物体双站RCS和其组成阵列后的双站RCS关系验证
¥20 想用ollama做一个自己的AI数据库
¥15 关于qualoth编辑及缝合服装领子的问题解决方案探寻
¥15 请问怎么才能复现这样的图呀

从hdfs中读取数据并用spark操作时出现问题

1条回答 默认 最新

悬赏问题

1条回答默认最新