hhhhhhcchzzcd 2024-05-25 10:13 采纳率: 0%

头歌警务大数据之上网相关指标批处理特定时间段频繁上网

头歌警务大数据之上网相关指标批处理特定时间段频繁上网，有没有能人帮忙解决一下
任务描述
本关卡属于警务大数据中的一个业务指标统计，从网吧的上网人员日志记录中进行批量计算，对上网时间异常、上网地点异常的人员进行统计，对有犯罪动机的人员进行监控、预警。

本关任务：统计出触及特定时间段频繁上网指标的人员。

相关知识
为了掌握本关知识，你需要掌握如下知识：

指标的定义

如何引入Phoenix-spark插件

Spark SQL如何通过Phoenix读取HBase表中数据

Spark SQL如何把处理结果通过Phoenix存入HBase

如何通过SQL语句处理结构化数据

指标定义
一周内有两次以上零点到六点之间上网的人。

数据源
本实训提供了一个月的上网人员信息数据。

表名：dw.ZNB_04_121800005

表结构：

字段名数据类型字段说明
XM VARCHAR 姓名
XB VARCHAR 性别
CSRQ VARCHAR 出生日期
MZ VARCHAR 民族
LGMC VARCHAR 上网名称
LGDZQH VARCHAR 上网地址区划
SSQBM VARCHAR 住址省市区
XZ VARCHAR 详址
LGDZ VARCHAR 上网地址
ZJLX VARCHAR 证件类型
RZSJ VARCHAR 上网时间
TFSJ VARCHAR 结束时间
RZFH VARCHAR 上网房号
ZJHM VARCHAR 证件号码
XP VARCHAR 相片
LKBH VARCHAR 上网编号旅客编号
LGBM VARCHAR 上网编码
主键：RZSJ,ZJHM

其中一条数据为：

注意：只有姓名，出生日期，上网地址名称，上网时间，结束时间和证件号码列有数据，证件号是唯一的**

结果数据存储
将结果数据依托于Phoenix存入HBase中。

表名：tdsjsw

表结构：

字段名数据类型说明
zjhm VARCHAR 证件号，非空，主键
theweek Integer 第几周，非空，主键
输出结果列为zjhm(证件号码)，theweek(某周)

将 Phoenix 表加载为 DataFrame
通过 DataSource API可以把 phoenix 表加载成 DataFrame，只需要给定一个表名和 Hbase 的 Zookeeper 地址。

保存 DataFrame
Phoenix-Spark 同样可以把 DataFrame 保存到 HBase，只需要给定表名和 Zookeeper 地址。

编程要求
请仔细阅读右侧代码，根据方法内的提示，在Begin - End区域内进行代码补充，完成指标的统计任务。

思路步骤：

通过Phoenix-Spark读取HBase表中数据

计算出触及指标的人员

通过Phoenix-Spark将结果数据存入HBase

原表和数据以及结果表均已创建完成

Zookeeper地址：127.0.0.1:2181

测试说明
补充完代码后，点击测评，平台会对你编写的代码进行测试，当你的结果与预期输出一致时，即为通过；

预期输出：

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-05-25 10:13
关注
引自免费微信小程序：皆我百晓生

在警务大数据分析中，要追踪特定时间段内频繁上网的用户，我们可以采用数据预处理、特征提取、数据分析等步骤。这里是一个简化的Python脚本示例，使用pandas库进行数据处理，并通过设定阈值来识别频繁上网的用户。

首先，确保已经安装了必要的库：

pip install pandas numpy

接下来是Python代码实现：

import pandas as pd from datetime import datetime, timedelta # 假设我们有一个CSV文件，其中包含用户的上网记录，字段包括：用户ID（user_id）、上网时间戳（timestamp）和IP地址（ip_address） data = pd.read_csv("上网记录.csv") # 将timestamp列转换为datetime格式 data["timestamp"] = pd.to_datetime(data["timestamp"]) # 定义一个函数来计算用户在给定时间段内的上网次数 def count_visits_in_period(user_data, start_time, end_time): return user_data[(user_data["timestamp"] >= start_time) & (user_data["timestamp"] < end_time)].shape[0] # 示例时间段，例如从2023-01-01 08:00到2023-01-01 16:00 start_time = datetime(2023, 1, 1, 8, 0) end_time = datetime(2023, 1, 1, 16, 0) # 频繁上网的阈值，可以根据实际情况调整 frequent_visits_threshold = 5 # 创建一个新的DataFrame，用于存储频繁上网的用户信息 frequent_users = pd.DataFrame(columns=["user_id", "visit_count"]) # 对于每个用户，计算他们在指定时间段内的访问次数 for user_id in data["user_id"].unique(): user_visits = data[data["user_id"] == user_id] visit_count = count_visits_in_period(user_visits, start_time, end_time) # 如果访问次数超过阈值，则将用户添加到频繁用户列表中 if visit_count > frequent_visits_threshold: frequent_users = frequent_users.append({"user_id": user_id, "visit_count": visit_count}, ignore_index=True) print(frequent_users)

这个脚本会读取CSV文件中的上网记录，然后计算在指定时间段（例如上午8点至下午4点）内，哪些用户的上网次数超过了预先设置的阈值（这里是5次）。结果将以DataFrame的形式输出，包含频繁上网的用户ID及其对应的访问次数。

注意，这只是一个基础的示例，实际应用可能需要考虑更复杂的情况，比如网络连接类型、地理位置、设备信息等。此外，为了保护隐私，可能还需要对原始数据进行脱敏处理。

如果你有具体的数据样本或者需要进一步的帮助，请提供更多的细节，我可以根据这些信息给出更精确的建议。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

在android使用HttpClient get()方法从网络下载txt文件下载不完全 android
2011-10-20 09:33

回答 4 已采纳 :twisted: 那你怎么能在for循环中读到数据的，你找找原因
警务大数据项目实战
2023-04-24 08:54

有一个stupig的博客头歌——警务大数据项目实现代码
头歌-警务大数据
2023-03-18 14:59

搞钱要紧rich的博客头歌平台-警务大数据练习
Spark-RDD 统计用户上网流量连续上网案例
2021-01-04 14:41

商俊超的博客 2020-02-18 14:39:58,2020-02-18 15:35:53,20 3,2020-02-18 15:36:39,2020-02-18 15:24:54,30 需求：统计用户上网流量，如果两次上网的时间小于10分钟，就可以rollup到一起方法一 import java.text....
大数据独角兽Palantir之核心技术探秘
2019-09-12 01:13

chuange6363的博客 1．Palantir源起：B2B大数据和企业级Google。 Palantir（中文名帕兰提尔，源于《指环王》中可穿越时空、洞悉世间一切的水晶球Palantír）被誉为硅谷最神秘的大数据独角兽企业，短短几年内跻身百亿俱乐部，成为全球...
车辆大数据平台建设方案
2024-03-11 11:35

珞圻-Health的博客加强有关执法部门间的数据流通，在法律许可和确保安全的前提下，加强对社会治理相关领域数据的归集、发掘及关联分析，强化对妥善应对和处理重大突发公共事件的数据支持，提高公共安全保障能力，推动构建智能防控、...
2021爱分析·中国人工智能应用趋势报告——新基建助推，人工智能应用迈入新阶段
2021-01-19 15:15

ifenxi爱分析的博客算法是机器的学习方法，提供各种各样的通用算法模型，并结合具体应用场景提供特定技术接口。 2020年初，人工智能被纳入新基建的范畴，与5G、特高压、城际高速铁路和城市轨道交通、新能源汽车充电桩、工业互联网、大...
无锡市公安局ETL/BI/数据复制/数据库审计采购要求
2012-06-01 11:38

weixin_33709609的博客项目技术要求和有关说明本项目为无锡市公安局的社会信息采集汇聚（二）数据管理服务平台一期，项目具体要求如下，投标人须提供满足以下要求的产品和服务：（一）技术要求： 1．项目概述随着全省公安信息化...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 5月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 5月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月25日

悬赏问题

¥15 sessionStorage在vue中的用法
¥15 wordpress更换域名后用户图片头像不显示
¥15 如何在ubunto上安装CEF (Chromium Embedded Framework)，并且基于qt实现打开一个web
¥30 AD9854 为什么输出波形幅度受限，AI机器人勿扰
¥15 如何在ubunto上安装CEF (Chromium Embedded Framework
¥15 数据库原理及应用上机练习题
¥15 如何联系真正的开发者而非公司
¥15 有偿求苍穹外卖环境配置
¥15 代码在keil5里变成了这样怎么办啊，文件图像也变了，
¥20 Ue4.26打包win64bit报错，如何解决？(语言-c++)

头歌 警务大数据之上网相关指标批处理 特定时间段频繁上网

3条回答 默认 最新

问题事件

悬赏问题

头歌警务大数据之上网相关指标批处理特定时间段频繁上网

3条回答默认最新