广告检测流量作弊案例 IDEA运行代码报错连接不上metastore 检测了环境配置没有问题请求远程解决加VX问细节问题不加的不回复

广告检测流量作弊案例 IDEA运行代码报错连接不上master主机
检测了环境配置没有问题

编程代码

import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}
import org.apache.spark.sql.functions._

object Exploreore {
  System.setProperty("HADOOP_USER_NAME","cc")
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .master("local[4]")
      .appName("Explore")
      .config("spark.sql.warehouse.dir", "hdfs://master:9000/warehouse")
      .config("hive.metastore.uris", "thrift://master:9083")
      .enableHiveSupport()
      .getOrCreate()


    spark.sparkContext.setLogLevel("WARN")

    // 读取数据
    val rawData = spark.read.option("header","true").csv("D:\\idea Class\\class 228\\src\\case_data_new.csv")
    // 统计记录数
    println("原始数据集行数为：" + rawData.count())

    // 统计日流量
    rawData.groupBy("dt").count().selectExpr("dt","count as dayCount").sort("dt").show()

    // 获取列名并存为List中
    val columnName = rawData.columns.toList
    // 计算数据字段缺失值
    for (i <- columnName){
      MissingCount(rawData,i)
    }

    def MissingCount(data:DataFrame,columnName:String): Unit ={
      if (columnName != "creativeid") {
        val missingRate = data.select(
          columnName).na.drop().count().toDouble / data.count()
        println(columnName+" 缺少值比率：" + (1-missingRate)*100 + "%")
      }
      else{
        val creativeidMissing = data.select(columnName).filter(
          "creativeid == 0").count() / data.count().toDouble
        println(columnName+" 缺少值比率：" + creativeidMissing*100+"%")
      }
    }

    // 脚本刷新网页作弊
    // 统计cookie和ip相同的流量记录数
    val cookie_ip_distribute = rawData.groupBy(
      "ip","cookie").count().withColumn("ip_cookie_count_precent", col(
      "count") / rawData.count()*100).orderBy(desc("count"))
    cookie_ip_distribute.show(false)

    // 统计同一个ip和cookie的浏览次数超过100的记录数
    val click_gt_100 = cookie_ip_distribute.filter("count > 100").count()
    println("同ip、cookie出现超过100次以上的记录数：" + click_gt_100)

    // 定期清除cookie，刷新网页作弊
    // 统计每个ip对应的不同cookie次数的分布情况
    val ip_distribute = rawData.groupBy("ip").agg(
      countDistinct("cookie") as "ip_count").groupBy("ip_count").agg(count(
      "ip_count") as "ip_count_count", count(
      "ip_count") / rawData.count()*100 as "ip_count_count_precent").orderBy(
      desc("ip_count"))
    ip_distribute.show(false)

    // ADSL重新拨号后刷新网页作弊
    // 统计ip前两段相同的记录数的分布情况
    val ip_two = rawData.withColumn("ip_two",substring_index(
      col("ip"), ".", 2)).groupBy("ip_two").agg(
      count("ip_two") as "ip_two_count").orderBy(desc("ip_two_count"))

    ip_two.show(false)


    // 统计ip前3段相同的记录数的分布情况
    val ip_three = rawData.withColumn(
      "ip_three",substring_index(col("ip"), ".", 3)).groupBy("ip_three").agg(
      count("ip_three") as "ip_three_count").orderBy(desc("ip_three_count"))

    ip_three.show(false)


    // 删除缺失字符
    val data_new = rawData.drop("mac").drop("creativeid").drop(
      "mobile_os").drop("mobile_type").drop("app_key_md5").drop(
      "app_name_md5").drop("os_type")

    data_new.write.mode(SaveMode.Overwrite).saveAsTable("ad_traffic.AdData")
  }
}

hive-site.xml配置


```xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://master:3306/hive?createDatabaseIfNotExist=true&amp;useSSL=false</value>
    <description>JDBC connect string for a JDBC metastore</description>
  </property>  
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
    <description>Driver class name for a JDBC metastore</description>
  </property>  
  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
    <description>username to use against metastore database</description>
  </property>  
  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>123456</value>
    <description>password to use against metastore database</description>
  </property>
  <property>
    <name>hive.metastore.warehouse.dir</name>
    <value>hdfs://master:9000/warehouse</value>
    <description>location of default database for the warehouse</description>
  </property>
    <property>
        <name>hive.metastore.uris</name>
        <value>thrift://master:9083</value>
    </property>

</configuration>


![img](https://img-mid.csdnimg.cn/release/static/image/mid/ask/d968768ef79142a79c65e0a14de8dc4f.png "#left")


![img](https://img-mid.csdnimg.cn/release/static/image/mid/ask/5b8c505ea8f64642a663bc5dc7d081e7.png "#left")


![img](https://img-mid.csdnimg.cn/release/static/image/mid/ask/52ae4e86e25c4422976dea4640cb5ed0.png "#left")

hive metastore服务已启动

![img](https://img-mid.csdnimg.cn/release/static/image/mid/ask/db2ae98915c84075a3d17d8db33583e4.png "#left")

9083端口能监听到，但是查看进程却没有

![img](https://img-mid.csdnimg.cn/release/static/image/mid/ask/41a711dc16a8495cb5fa3164cb7d1aa8.png "#left")

亟待解决

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

23条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-06-04 17:01
关注
获得0.60元问题酬金
引自免费微信小程序：皆我百晓生

看起来你在尝试使用Spark SQL进行数据分析，并且遇到了连接Hive Metastore的问题。根据提供的信息，错误可能出现在Hive Metastore服务未正确启动或者配置文件设置有误。让我们一步一步地排查这个问题。

首先，确认一下Hive Metastore服务是否正在运行。从截图来看，虽然你提到Hive Metastore服务已经启动，但图片中并未显示实际的服务状态。请确保hive-metastore服务已经在您的集群中运行。在Linux环境中，你可以通过以下命令检查服务状态：

sudo service hive-metastore status

或者

systemctl status hive-metastore

如果服务未运行，你需要启动它：

sudo service hive-metastore start

或者

systemctl start hive-metastore

接下来，我们需要检查Hive Metastore的配置。您提供的hive-site.xml配置文件看起来是正确的，特别是hive.metastore.uris和hive.metastore.warehouse.dir属性。不过，为了保险起见，确保其他配置项也正确无误。

在确认了Hive Metastore服务运行正常并且配置文件正确之后，我们回到Spark代码部分。在IDEA中运行时，确保你的本地环境与配置文件中的设置匹配。如果你的开发环境不是Hadoop集群而是伪分布式模式（比如使用local[4]作为master），那么Hive Metastore可能不会在9083端口上运行，因为通常这个端口用于集群环境中的Metastore服务。在这种情况下，Spark可能会默认使用本地模式访问Metastore，不需要显式指定hive.metastore.uris。

尝试将代码中的master("local[4]")保留不变，去掉.config("hive.metastore.uris", "thrift://master:9083")这一行，看看是否可以运行。

这是修改后的代码片段：

val spark = SparkSession.builder() .master("local[4]") .appName("Explore") .config("spark.sql.warehouse.dir", "hdfs://master:9000/warehouse") .enableHiveSupport() .getOrCreate()

如果你仍然遇到问题，可能是由于防火墙设置或者网络问题导致IDEA无法连接到Metastore。试着关闭防火墙或者检查网络设置。

最后，如果你确定所有配置都正确，但还是无法连接，你可以尝试重启IDEA，或者清理项目缓存再试一次。

如果你还有其他疑问或者问题依然存在，你可以提供更详细的错误信息，这样我可以更好地帮助你。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

用python模拟鼠标键盘，会被检测到吗？ python 游戏程序
2022-10-28 20:58

回答 2 已采纳 pyautogui，用这个识别图片点击，可以做简单的脚本如果是简单的点击，按键精灵其实很好实现的
想要开发一个在线考试防作弊系统，在摄像头监控遇到一些问题，求解？ java
2020-12-07 21:33

回答 1 已采纳 1:首先关于人脸识别,这类比较设计算法底层的东西,我推荐你去付费购买该功能的API,比如商汤和云从人脸识别服务都是不错的,其实大部分的功能都是调用第三方接口
python输出问题 python
2022-09-21 13:00

回答 3 已采纳 for循环内有print函数，导致循环打印了
【毕业设计】机器学习恶意流量识别检测（异常检测） - 网络安全信息安全
2022-11-11 11:10

caxiou的博客为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的新项目是基于机器学习的恶意流量识别检测学长这里给一个题目综合评分(每项满分5分)难度系数：4分工作量：4分创新点：3分。
python 编写24点程序问题 python
2022-09-21 15:32

回答 3 已采纳 from typing import List # import keyboard import random import re import itertools import sys impo
PTA霸屏考试投屏算切屏作弊吗 c语言 java
2022-06-06 10:33

回答 1 已采纳不算，没弹窗就行
为什么一输入f就报错啊，教程上面有f的 python
2023-04-07 10:11

回答 4 已采纳 f 格式化是 python3.6 之后版本添加的新的格式化字符串的语法，看你截图里python版本是3.5，所以不支持这种语法就报错啦有帮助的话，请点采纳该答案~
IDEA（2021.2.3）java文件路径含中文运行/调试时在最近报错错误：找不到或无法加载主类的解决路程记录
2022-02-28 17:26

PeaTr的博客学习了几个月java基础，模块名按照网课进行了包含中文的命名，可是用了很久也没出现问题，这两天再次打开IDEA的时候突然发现写到一半的手写容器类调试报错：错误：找不到或无法加载主类... 立马百度，2020年前的...
关于游戏开发，与反作弊 c# c++ python 有问必答
2021-07-23 12:10

回答 7 已采纳你的鼠标左键是用python调用系统api来实现的，人家反外挂现在有的都是驱动级的，直接看是硬件发来的中断还是api发来的就知道是不是真的点击了。你想骗过这总反外挂，只能是用物理外挂，也就是操控外设。
有人用darkstar么~？问个问题
2009-08-20 14:23

回答 3 已采纳缓存在文件里可以提高点效率，至少比去数据库里取数据快多了
咱这计算机专业，有啥推荐参加的比赛吗问答团队
2021-03-10 09:56

回答 2 已采纳 ACM，大学生程序设计竞赛，以算法题为主，不过非常难，其含金量也是CS皇冠的级别，可以说是全世界CS界瞩目的赛事；如果成绩足够好，就不是你去找好工作，而是谷歌、微软、华为这类企业抢着来找你了（当然，打
英雄联盟一直连接不上服务器连接异常,LOL服务器连接异常怎么办
2021-07-29 11:59

红护的博客 LOL英雄联盟提示“服务器连接异常，即将退出，请重新连接游戏”，对此该如何解决呢？下面小编就与大家分享一下LOL服务器连接异常的解决方法。LOL客户端采用了“防作弊”策略，凡是登陆LOL英雄联盟客户端后10分钟以上...
java 如何生成时效性二维码？ intellij-idea java java-ee maven spring
2020-10-13 14:16

回答 2 已采纳可以在生成的时候吧时间戳放进去，然后扫描的时候，访问网页的时候携带这个时间戳参数，在后端根据自己的业务逻辑判断是否过期即可！！！ > 当然为了防止伪造二维码，可以加一些算法校验
盘点各大厂商的活体检测服务，哪款更适合应用开发者？
2022-05-19 16:00

考古学家lx(李玺)的博客远程身份验证银行证券、金融保险等智能人脸支付商超市场、零售行业等设备刷脸解锁电子设备、社区通行等市面上提供活体检测服务的厂商有很多家，下面我们将结合开发者关注的识别场景、集成便捷性、安全性等问题...
解决穿山甲Gromore广告在Oppo上报广告病毒Android.Virus.AdCheat.AdCut.A
2022-12-07 16:02

KeepStudya的博客而且我能确保对广告没有任何违规操作。由于是上架oppo被打回，于是第一件事情肯定是先找oppo的客服，咨询一番发现客服是傻b。只会重复这一句：让开发去查。由于客服那边无法得到有效信息，于是在百度和谷歌搜索了...
谁是远程界的天花板？2023年5款最常用的远程软件横测：ToDesk、向日葵、TeamViewer、Splashtop、AnyDesk
2023-06-19 07:00

dvlinker的博客谁是远程界的天花板？2023年5款最常用的远程软件横测：ToDesk、向日葵、TeamViewer、Splashtop、AnyDesk
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月4日

悬赏问题

¥15 35114 SVAC视频验签的问题
¥15 impedancepy
¥15 在虚拟机环境下完成以下，要求截图！
¥15 求往届大挑得奖作品（ppt…）
¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见

广告检测流量作弊案例 IDEA运行代码报错 连接不上metastore 检测了环境配置没有问题 请求远程解决加VX问细节问题 不加的不回复

23条回答 默认 最新

问题事件

悬赏问题

广告检测流量作弊案例 IDEA运行代码报错连接不上metastore 检测了环境配置没有问题请求远程解决加VX问细节问题不加的不回复

23条回答默认最新