Lirsoon 2017-10-21 04:07 采纳率: 0%
浏览 2122

从hdfs中读取数据并用spark操作时出现问题

我从集群环境的hdfs中读取数据,然后处理数据时出现问题,在循环里面添加的对象在循环外就没有了,初学spark和scala,请大佬指点.
object Test {

case class Passenger(name: String, txn_date: String, txn_time: String, txn_station: String, ticket_type: String, trans_code: String, sub: String, txn_station_id: String)

def main(args: Array[String]): Unit = {
val inputFile = "hdfs://Master:9000/user/hadoop/input/tmp.txt"
val conf = new SparkConf().setAppName("WordCount")
val sc = new SparkContext(conf)

val text = sc.textFile(inputFile) //25 lines like "000025643       "    "20141201"  "060912"    "0328"  "88"    "22"    "" from hdfs
val Passengers = new ArrayBuffer[Passenger]()
for (line <- text) {
  val points = for (i <- 0 until (line.length) if (line.charAt(i) == '"')) yield {
    i
  }
  val items = for (i <- 0 until (points.length) if (i % 2 == 0)) yield {
    if (!line.slice(points(i).toString.toInt + 1, points(i + 1).toString.toInt).equals("")) {
      line.slice(points(i).toString.toInt + 1, points(i + 1).toString.toInt).trim
    }
    else
      "null"
  }
  val tmp:Passenger=new Passenger(items(0).trim, items(1), items(2), items(3), items(4), items(5), "null", items(6))
  println(tmp) //it is Passenger(000026853,20141201,060921,0325,88,21,null,null) [no problem]
  Passengers.append(tmp)
  println(Passengers.length) //1,2,3.....25 [no problem]
}
println("----------------------------" + Passengers.length) //it is 0!!!! why?
val passengersArray = Passengers.toArray

val customersRDD = sc.parallelize(passengersArray)
val customersDF = customersRDD.toDF()

}
}


  • 写回答

1条回答 默认 最新

  • CSDN-Ada助手 CSDN-AI 官方账号 2022-10-27 15:50
    关注
    不知道你这个问题是否已经解决, 如果还没有解决的话:

    如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
    评论

报告相同问题?

悬赏问题

  • ¥15 用matlab 设计一个不动点迭代法求解非线性方程组的代码
  • ¥15 牛顿斯科特系数表表示
  • ¥15 arduino 步进电机
  • ¥20 程序进入HardFault_Handler
  • ¥15 oracle集群安装出bug
  • ¥15 关于#python#的问题:自动化测试
  • ¥20 问题请教!vue项目关于Nginx配置nonce安全策略的问题
  • ¥15 教务系统账号被盗号如何追溯设备
  • ¥20 delta降尺度方法,未来数据怎么降尺度
  • ¥15 c# 使用NPOI快速将datatable数据导入excel中指定sheet,要求快速高效