weixin_48484941 2021-11-24 10:01 采纳率: 62.5%
浏览 32
已结题

spark sql join 1个driver很慢,其他很快,怀疑数据倾斜,帮解决可有偿私

问题:用spark sql 表join自身,执行过程就1个driver很慢,其他很快

代码:

      spark.sql("select /*+ MERGEJOIN(t2) */ t1.bsm,t2.bsm " +
        " from temp t1" +
        " join temp t2 on t1.index != t2.index and st_overlaps(t1.geometry,t2.geometry)").show()

结果:

img

img

import org.apache.spark.sql.SparkSession
import org.gdal.ogr.Geometry
import org.locationtech.geomesa.spark.GeoMesaSparkKryoRegistrator
import org.locationtech.geomesa.spark.jts._
import org.locationtech.jts.geom.MultiPolygon

object SparkSqlJoinTest {

  def main(args: Array[String]):Unit = {
    val spark: SparkSession = SparkSession.builder()
      .appName("testSpark")
      .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .config("spark.kryo.registrator", classOf[GeoMesaSparkKryoRegistrator].getName)
      .master("local[*]")
//      .config("spark.sql.adaptive.enabled",true)
//      .config("spark.sql.adaptive.coalescePartitions.enabled",true)
//      .config("spark.sql.adaptive.coalescePartitions.minPartitionNum",1)
//      .config("spark.sql.adaptive.skewJoin.enabled",true)
//      .config("spark.sql.adaptive.skewJoin.skewedPartitionFactor",5)
      .config("spark.sql.crossJoin.enabled",true)
      .getOrCreate()
      .withJTS

    val geonamesParams = Map(
      "hbase.zookeepers" -> "master",
      "hbase.catalog"  -> "test"
    )

    val geonamesDF = spark.read
      .format("geomesa")
      .options(geonamesParams)
      .option("geomesa.feature", "test2000")
      .load()

    geonamesDF.where("layername='test2000'").createOrReplaceTempView("temp")

    try{

      spark.sql("select /*+ skewjoin(t2) */ t1.bsm,t2.bsm from temp t1 join temp t2 ").rdd.saveAsTextFile("D:/test")

//      spark.sql("select /*+ skewjoin(t2) */ t1.bsm,t2.bsm " +
//        " from temp t1" +
//        " join temp t2 on t1.index != t2.index and st_overlaps(t1.geometry,t2.geometry)").show()
}finally {
  print("a")

}
  }



}

img

  • 写回答

1条回答 默认 最新

  • 「已注销」 2021-11-24 10:27
    关注

    你把它复制到记事本发给我

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 12月2日
  • 已采纳回答 11月24日
  • 修改了问题 11月24日
  • 修改了问题 11月24日
  • 展开全部

悬赏问题

  • ¥15 关于#java#的问题:找一份能快速看完mooc视频的代码
  • ¥15 这种微信登录授权 谁可以做啊
  • ¥15 请问我该如何添加自己的数据去运行蚁群算法代码
  • ¥20 用HslCommunication 连接欧姆龙 plc有时会连接失败。报异常为“未知错误”
  • ¥15 网络设备配置与管理这个该怎么弄
  • ¥20 机器学习能否像多层线性模型一样处理嵌套数据
  • ¥20 西门子S7-Graph,S7-300,梯形图
  • ¥50 用易语言http 访问不了网页
  • ¥50 safari浏览器fetch提交数据后数据丢失问题
  • ¥15 matlab不知道怎么改,求解答!!