spark 中rdd与dataframe的合并（join）

以下是我写的代码：

 /*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *    http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

// scalastyle:off println
package com.shine.ncc

import org.apache.spark.SparkConf
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.mllib.classification.NaiveBayesModel
import org.apache.spark.rdd.RDD
import org.apache.spark.streaming.Time
import org.apache.spark.sql.SQLContext
import org.apache.spark.SparkContext
import org.apache.spark.ml.feature.Tokenizer
import org.ansj.splitWord.analysis.ToAnalysis
import org.ansj.util.FilterModifWord
import java.util.Arrays
import org.apache.spark.mllib.feature.HashingTF
import scala.collection.JavaConversions._
import org.apache.spark.mllib.feature.IDF
import org.apache.spark.mllib.feature.IDFModel
import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.hbase.client.HTable
import org.apache.hadoop.hbase.client.Put
import org.apache.hadoop.hbase.util.Bytes

object NetworkNewsClassify1 {
  var sameModel = null 

  /** Case class for converting RDD to DataFrame */
  case class Record(content: String,time:String,title:String)


  /** Lazily instantiated singleton instance of SQLContext */
  object SQLContextSingleton {

    @transient  private var instance: SQLContext = _

    def getInstance(sparkContext: SparkContext): SQLContext = {
      if (instance == null) {
        instance = new SQLContext(sparkContext)
      }
      instance
    }
  }

  def main(args: Array[String]) {
//    if (args.length < 2) {
//      System.err.println("Usage: NetworkWordCount <hostname> <port>")
//      System.exit(1)
//    }

    StreamingExamples.setStreamingLogLevels()

    // Create the context with a 1 second batch size
    val sparkConf = new SparkConf().setAppName("NetworkNewsClassify")
    sparkConf.setMaster("local[2]");
    val ssc = new StreamingContext(sparkConf, Seconds(1))

    // Create a socket stream on target ip:port and count the   获取json信息
    val lines = ssc.socketTextStream("localhost", 9999, StorageLevel.MEMORY_AND_DISK_SER)
    val myNaiveBayesModel = NaiveBayesModel.load(ssc.sparkContext, "D:/myNaiveBayesModel")
    //将接送转换成rdd
    lines.foreachRDD((rdd: RDD[String], time: Time) => {
      // Get the singleton instance of SQLContext
      val sqlContext = SQLContextSingleton.getInstance(rdd.sparkContext)
      import sqlContext.implicits._

      val newsDF = sqlContext.read.json(rdd)
      newsDF.count();
      val featurizedData = newsDF.map{
          line => 
            val temp = ToAnalysis.parse(line.getAs("title"))
            //加入停用词 
            FilterModifWord.insertStopWords(Arrays.asList("r","n"))
            //加入停用词性???? 
            FilterModifWord.insertStopNatures("w",null,"ns","r","u","e")
            val filter = FilterModifWord.modifResult(temp)
            //此步骤将会只取分词，不附带词性
            val words = for(i<-Range(0,filter.size())) yield filter.get(i).getName
            //println(words.mkString("  ;  "));
            //计算每个词在文档中的词频
            new HashingTF(500000).transform(words)
      }.cache()
      if(featurizedData.count()>0){
        //计算每个词的TF-IDF
        val idf = new IDF()
        val idfModel = idf.fit(featurizedData)
        val tfidfData = idfModel.transform(featurizedData);
        //分类预测
        val resultData = myNaiveBayesModel.predict(tfidfData)
        println(resultData)

        //将result结果与newsDF信息join在一起
        //**??? 不会实现了。。。**
        //保存新闻到hbase中

      }

    })


    ssc.start()
    ssc.awaitTermination()
  }
}

其中newsDF是新闻信息，包含字段（title，body，date），resultData 是通过贝叶斯模型预测的新闻类型，我现在希望把result结果作为一个type字段与newsDF合并（join），保存到hbase中，这个合并的操作怎么做呢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-10-27 15:49
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
关于该问题，我找了一篇非常好的博客，你可以看看是否有帮助，链接：【Spark SQL】两个DataFrame full join之后字段选择问题解决

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

spark中创建RDD有关问题 spark
2022-06-03 20:23

回答 1 已采纳 Python SparkConf.setAppName方法代码示例 - 纯净天空 Python SparkConf.setAppName方
spark集成hbase过程中RDD转换问题 hbase spark
2021-10-28 11:43

回答 1 已采纳用flatmap
spark，为什么下面这个rdd.collect会报空指针 scala
2020-05-11 23:57

回答 1 已采纳 https://blog.csdn.net/high2011/article/details/53138279
大数据spark框架常用数据类型RDD与DataFrame的区别
2022-04-20 15:14

骨灰级收藏家的博客大数据spark框架常用数据类型RDD与DataFrame的区别，在spark中，RDD、DataFrame是最常用的数据类型，在ApacheSpark里面DF 优于RDD但也包含了RDD的特性，在使用的过程中分别介绍下两者的区别和各自的优势。...
关于spark RDD求平均的问题
2015-11-23 12:10

回答 1 已采纳先转化为pairrdd，以时段为键，分数次数为值，然后以键aggregate聚合，统计每个键下的值就行了
dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？ hadoop python spark
2022-11-29 23:12

回答 1 已采纳那么dataframe，rdd相关语法懂得了的话在开发的过程中又有什么用途呢，或者有什么优势呢？----- 这些懂了可以更加清楚spark的数据转换过程，知道的底层更对多对写代码的优化会更加好
spark创建dataframe导入phoenix如何禁止自动创建字段编号 hbase spark
2016-02-23 08:03

回答 2 已采纳问题搞定了 df = sqlContext.createDataFrame(sparkRDD2,["HANGJIAN","LIECU","LIECU2","LIECU5","HANGJIAN5"])
PySpark中RDD与DataFrame相互转换操作
2019-04-20 11:37

Data_IT_Farmer的博客 1. 弹性数据集RDD RDD是一个抽象的分布式数据集合，它提供了一系列转化操作（例如基本的map()、flatMap()、filter()，类集合操作union()、intersection()、subtract()）和行动操作（例如collect()、count()、take...
大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
SparkSQL编程：DataFrame创建 mysql spark
2023-03-27 15:02

回答 2 已采纳我试着回答一下：这个错误的原因是因为 employeeRDD 是一个包含字符串的 RDD，当使用 createDataFrame() 函数创建 DataFrame 时，Spark 无法将字符串转换为
pyspark报错，'DataFrame' object has no attribute '_jdf' python spark
2022-04-29 16:55

回答 1 已采纳可以参考一下
大数据之Spark框架中RDD和DataFrame的区别
2022-03-03 18:45

我想去吃ya的博客大数据之Spark框架中RDD和DataFrame的区别是什么？RDD（提供了一种高度受限的共享内存模型； DataFrame是一种分布式的数据集，并且以列的方式组合的。在spark中RDD、DataFrame是最常用的数据类型，在使用的过程中你...
spark sql join 1个driver很慢，其他很快，怀疑数据倾斜，帮解决可有偿私 spark
2021-11-24 10:01

回答 1 已采纳你把它复制到记事本发给我
spark：RDD和DataFrame和DataSet三者间的区别
2020-06-16 22:50

花和尚也有春天的博客在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看： RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6) 如果同样的数据...
spark rdd api dataframe 以及dataframe rdd dataset 相互转换 spark sql
2018-02-14 21:36

包括spara rdd api，dataframe action操作、查询操作、join操作，dataframe rdd dataset 相互转换以及spark sql。
没有解决我的问题, 去提问

悬赏问题

¥15 Stata 面板数据模型选择
¥20 idea运行测试代码报错问题
¥15 网络监控：网络故障告警通知
¥15 django项目运行报编码错误
¥15 请问这个是什么意思？
¥15 STM32驱动继电器
¥15 Windows server update services
¥15 关于#c语言#的问题：我现在在做一个墨水屏设计，2.9英寸的小屏怎么换4.2英寸大屏
¥15 模糊pid与pid仿真结果几乎一样
¥15 java的GUI的运用