雨不停,天气晴
2022-04-01 17:53
采纳率: 42.9%
浏览 169

大数据 hive 日志解析,数据库设计

只要有帮助都会采纳,从日志部分开始,建议有用的话也会采纳

日志部分:

img

img

img

需求:
需求:
1.了解不同地区以及不同用户类型的登录时长情况(信息管理)
筛选条件: 地区、用户ID、电视型号、用户类型

img

2.不同用户在绘本不同页面的观看时长和次数(用户活跃)
筛选条件: 绘本名称,绘本页码,用户ID

img

3.了解不同地区、不同用户、不同绘本的访问情况。(用户月报表管理)
筛选条件: 日/周/月 地区:省-市 绘本名称: 用户类型: 时间选择:开始时间,结束时间

img

4.绘本上架期间,多少用户选择过这个绘本,绘本的稳定性(绘本管理)
筛选条件: 筛选条件:绘本名称,时间选择控件

img

5.统计pv uv
筛选条件: 绘本名称,绘本页码,用户ID

img

6.了解不同动作对用户实现和触发的难易程度(动作管理)
筛选条件:日/周/月 地区:省-市 绘本名称: 用户类型: 时间选择:开始时间,结束时间

img

我的解答思路和尝试过的方法

1.创建json表
create table aicsh(json string);
create table aitchby(json string);
create table aiyhdz(json string);

2,.解析json数据
多层json用 get_json_object
单层json用 json_tuple
目前日志是三个,各自独立,
日志的话我想合成一个多层json
创建对应器字段的大表,(这个要分区吗?按天还是月?)

json解析完成后写入大表

请教下各位,我怎么做,
需要根据不同的需求去创建一个存放结果的表吗?
然后怎样去计算着写指标?

只要有帮助就会采纳感谢,最好从头开始往下弄,从日志开始
有不合理请及时提出

4条回答 默认 最新

相关推荐 更多相似问题