如何用java实现SparkSQL dataframe添加自增序号列？

用spark分页查询数据，普通的sql()的不支持分页的sql语句
在网上查资料说可以增加一个序列实现
但是基本都是scala语言，代码如下

// 在原Schema信息的基础上添加一列 “id”信息

val schema: StructType = dataframe.schema.add(StructField("id", LongType))

// DataFrame转RDD 然后调用 zipWithIndex

val dfRDD: RDD[(Row, Long)] = dataframe.rdd.zipWithIndex()

val rowRDD: RDD[Row] = dfRDD.map(tp => Row.merge(tp._1, Row(tp._2)))

// 将添加了索引的RDD 转化为DataFrame

val df2 = spark.createDataFrame(rowRDD, schema)

df2.show()

这段代码如何用java实现呢
或者说我想把dataframe的数据分行获取，有什么其他办法吗

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

CSDN-Ada助手 CSDN-AI 官方账号 2022-10-27 15:49

关注

不知道你这个问题是否已经解决, 如果还没有解决的话:

看下这篇博客，也许你就懂了，链接：解决sparksql两个DataFrame合并后出现两列相同的情况

除此之外, 这篇博客: SparkSQL之DataFrame 编程(创建DataFrame ,DataFrame数据运算操作 ,输出存储DataFrame)(11)中的 1 从RDD创建DataFrame(从一个已经存在的RDD进行转换) 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:

1) 创建 sparkSession ,后续简称 spark ;

2) 使用 spark 创建原始的 RDD ,对RDD里面的数据进行切割处理 ,将切割处理的数据封装到定义的一个样例类(bean对象)里面 ,返回一个新的 RDD ;

3) 创建 DataFrame 的两种方法 :

第一种 : spark 调用 createDataFrame ,将新的RDD 放进去

第二种 : 导入隐式转换(import spark.implicits._) , 然后新的RDD调用 toDF 方法将 RDD 转换成 DataFrame .

注意 : 如果切割处理的数据不封装到 bean对象里面 ,而是直接以 tuple(元组) 的方式返回生成新的RDD ,后续这个RDD转为 DataFrame 之后 ,其 ROW(行)字段的名字就不是元组里面的字段名字 ,框架从tuple元组结构中，对schema的推断，也是成功的，只是字段名是tuple中的数据访问索引。即 row 的描述信息没有被约束

object SparkSqlTest3 {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName(this.getClass.getSimpleName)
      .master("local[*]")
      .getOrCreate()

    --创建RDD
    val lines: RDD[String] = spark.sparkContext.parallelize(List("lii,13,90.00", "yuu,14,91.09", "koo,12,90.00"))
    val userRDD: RDD[User2] = lines.map(line => {
      val fields = line.split(",")
      val name = fields(0)
      val age = fields(1).toInt
      val fv = fields(2).toDouble
      User2(name, age, fv)
    })
    --创建DataFrame-----第一种方法
    val userDF: DataFrame = spark.createDataFrame(userRDD)
    userDF.printSchema()
    /**
     * root
     * |-- name: string (nullable = true)
     * |-- age: integer (nullable = false)
     * |-- fv: double (nullable = false)
     */
    userDF.show()
    /**
     * +----+---+-----+
     * |name|age|   fv|
     * +----+---+-----+
     * | lii| 13| 90.0|
     * | yuu| 14|91.09|
     * | koo| 12| 90.0|
     * +----+---+-----+
     */

    --创建DataFrame的----第二种方法--导入隐式转换
    import spark.implicits._
    val userDF2: DataFrame = userRDD.toDF
    userDF2.show()
    /**
     * +----+---+-----+
     * |name|age|   fv|
     * +----+---+-----+
     * | lii| 13| 90.0|
     * | yuu| 14|91.09|
     * | koo| 12| 90.0|
     * +----+---+-----+
     */
  }
}
case class User2(name:String ,age:Int, fv:Double)

利用框架提供的隐式转换可以直接调用toDF创建，并指定字段名(其实就是约束 row 的信息)

object DataFrame03 {
  def main(args: Array[String]): Unit = {
    --创建sparksession
    val session = SparkSession.builder()
      .appName(this.getClass.getSimpleName)
      .master("local[*]")
      .getOrCreate()
    --使用 sparksession 创建RDD
    val lines: RDD[String] = session.sparkContext.parallelize(List("huu,12,98.00", "lii,13,99.09", "poo,14,98.09"))
    val rowRDD = lines.map(line => {
      val fields = line.split(",")
      val f0 = fields(0)
      val f1 = fields(1).toInt
      val f2 = fields(2).toDouble
      (f0, f1, f2)
    })
    --创建 DataFrame
    val dataFrame: DataFrame = session.createDataFrame(rowRDD)
    dataFrame.show()    --打印创建的dataF
    --  row 字段信息是元组的索引(字段名是tuple中的数据访问索引)
      +---+---+-----+
      | _1| _2|   _3|
      +---+---+-----+
      |huu| 12| 98.0|
      |lii| 13|99.09|
      |poo| 14|98.09|
      +---+---+-----+     
    --导入隐式转换
    import session.implicits._
    val dataFrame1: DataFrame = rowRDD.toDF("name", "age", "fv")  --对 row 的信息进行约束
    dataFrame1.show()
    --结果如下:
      +----+---+-----+
      |name|age|   fv|
      +----+---+-----+
      | huu| 12| 98.0|
      | lii| 13|99.09|
      | poo| 14|98.09|
      +----+---+-----+    
  }
}

将切割处理的数据封装到Spark系统自定义的Row实例类里面 ,这样就可以给row指定字段属性了 ,创建的RDD跟跟row约束的字段名进行关联

--创建DataFrame = RDD+CaseClass ,然后调用RDD的toDF
--创建DataFrame = RDD+StructType
object DateFrame01 {
  def main(args: Array[String]): Unit = {
    --创建sparkSession ,简称 spark
    val spark: SparkSession = SparkSession.builder()
      .appName(this.getClass.getSimpleName)
      .master("local[*]")
      .getOrCreate()

    --创建RDD
    val lines: RDD[String] = spark.sparkContext.parallelize(List("HUU,13,98.0","YII,12,98.99","GRR,17,97.08"))
    --处理数据 ,这个 Row 是spark系统自定义的实例类
    val rowRDD: RDD[Row] = lines.map(line => {
      val fields: Array[String] = line.split(",")
      val f0 = fields(0)
      val f1 = fields(1).toInt
      val f2 = fields(2).toDouble
      Row(f0, f1, f2)
    })
    --对Row的描述信息 ,就是所谓的Schema
    val structType: StructType = StructType(List(
      StructField("name", StringType),          --该字段默认可以为空
      StructField("age", IntegerType, false),     --该字段不可以为空
      StructField("fv", DoubleType, false)
    ))
    --对RDD 和Schema 进行关联
    val df: DataFrame = spark.createDataFrame(rowRDD, structType)
    --创建视图
    df.createTempView("v_user")
    --查询数据
    spark.sql(
      """
        |select name,fv from v_user where age >= 13
        |""".stripMargin).show()
   ----结果如下
      +----+-----+
      |name|   fv|
      +----+-----+
      | HUU| 98.0|
      | GRR|97.08|
      +----+-----+
  }
}

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^

报告相同问题？

关注问题

Spark DataFrame 添加自增id
2021-08-03 11:31

猫猫玩机器学习的博客方法一：利用窗口函数 /** * 设置窗口函数的分区以及排序，因为是全局排序而不是分组排序，所有分区... val df1 = dataframe.withColumn("id", row_number().over(spec)) df1.show() 方法二：利用RDD的 zipWit
Spark DataFrame添加自增ID
2024-01-22 11:25

木子民的博客此方法最快捷，序列从0开始自增。
Spark -- 对DataFrame增加一列索引列(自增id列)
2020-03-17 15:44

TheBiiigBlue的博客向导Spark DataFrame 添加自增id利用RDD的 zipWithIndex算子使用SparkSQL的function Spark DataFrame 添加自增id 在用Spark 处理数据的时候，经常需要给全量数据增加一列自增ID序号，在存入数据库的时候，自增ID...
关于dataframe 中自增行
2021-09-28 08:59

Mindy_Fan的博客关于dataframe 中自增行复制前序某行，即自增相同内容 for j in range(100): in_data=in_data.append(in_data.iloc[0]) #根据实际需求进行切片
PySpark DataFrame 添加自增 ID
2019-11-27 10:07

孤数不证的博客在用 Spark 处理数据的时候，经常需要给全量数据增加一列自增 ID 序号，在存入数据库的时候，自增 ID 也常常是一个很关键的要素。在 DataFrame 的 API 中没有实现这一功能，所以只能通过其他方式实现，或者转成 ...
如何将dataframe的行号排序，转为dataframe的某一列？
2020-05-06 17:33

data_amateur的博客如何将dataframe的行号排序，转为dataframe的某一列？第一种实现方式：这个实现方式比较繁琐： 1）df = df.reset_index()。将df的序号进行重置 2）重置后，index按照从0、1、2....的顺序开始递增。 3）新增...
使用zipwithindex 算子给dataframe增加自增列 row_number函数实现自增，udf函数实现自增
2020-04-15 15:49

Ynzo的博客 DataFrame df = ... StructType schema = df.schema().add(DataTypes.createStructField("id", DataTypes.LongType, false)); 使用RDD的zipWithIndex得到索引，作为ID值： JavaRDD<Row> rdd = df .javaRDD() ...
sparksql dataFrame 关于列的增删改操作
2018-04-26 21:13

xnlej的博客最近项目中用到spark和ES的集成，涉及到一系列对dataFrame列的操作，时间主要花在列的增删改上面。整个类采用的是spark+ES+Redis架构，ES存基础数据，redis 存储条件，根据redis的条件从ES筛选出符合条件的记录。val...
scala spark dataframe添加序号（id）列
2018-05-20 00:37

暮之雪的博客在spark的开发中，经常会出现需要为dataframe添加id列的地方，特别对于一些需要存到关系型数据库中的结果，话不多说，下面直接上代码。1、初始化： val sparks = SparkSession.builder .master("local[4]&quot...
【scala】dataframe中增加一列自增id
2020-11-27 14:47

猫头姐姐的博客 import org.apache.spark.sql.functions._ import org.apache.spark.sql.types._ import org.apache.spark.sql._ import org.apache.spark.rdd.RDD val schema: Struct... // DataFrame转RDD 然后调用 zipWithInde
没有解决我的问题, 去提问

码龄粉丝数原力等级 --

如何用java实现SparkSQL dataframe添加自增序号列？

1条回答默认最新

码龄粉丝数原力等级 --

如何用java实现SparkSQL dataframe添加自增序号列？

1条回答 默认 最新

1条回答默认最新