Spider_Black
Spider_Black
采纳率100%
2017-05-07 10:30

Spark textFile 不读取文件第一行

1

图片说明
这样读文件后,第一行存在,如果不读取第一行,该如何写?

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享
  • 邀请回答

3条回答

  • u014416842 u54782509 4年前

    跳过第一行:
    lines = sc.textFile('path_to_data')
    header = lines.first()
    lines = lines.filter(row => row != header)

    点赞 4 评论 复制链接分享
  • HaixWang haixwang 3年前

    楼上07.14的说法也是错误的,option(“header”,true)只是告诉Spark:我的文件有header,你不用提供你的列名:_c0,_c1等
    而并不是跳过,大家可以show以下试试,设置之后也是有自己的csv文件中的header的。

    点赞 1 评论 复制链接分享
  • coding_hello 野男孩 4年前

    楼上的做法有问题。如果文件内容中某一行的内容和第一行内容相同,也会被过滤掉。

    看楼主的意思,应该是想过滤csv的第一行,也就是字段名那行。
    如果是这样的话,spark提供了解决方案:spark.read.format("csv").option("header","true").csv(path-to-file)

    点赞 3 评论 复制链接分享

为你推荐