雨不停,天气晴 2022-04-01 17:53 采纳率: 42.9%
浏览 176
已结题

大数据 hive 日志解析,数据库设计

只要有帮助都会采纳,从日志部分开始,建议有用的话也会采纳

日志部分:

img

img

img

需求:
需求:
1.了解不同地区以及不同用户类型的登录时长情况(信息管理)
筛选条件: 地区、用户ID、电视型号、用户类型

img

2.不同用户在绘本不同页面的观看时长和次数(用户活跃)
筛选条件: 绘本名称,绘本页码,用户ID

img

3.了解不同地区、不同用户、不同绘本的访问情况。(用户月报表管理)
筛选条件: 日/周/月 地区:省-市 绘本名称: 用户类型: 时间选择:开始时间,结束时间

img

4.绘本上架期间,多少用户选择过这个绘本,绘本的稳定性(绘本管理)
筛选条件: 筛选条件:绘本名称,时间选择控件

img

5.统计pv uv
筛选条件: 绘本名称,绘本页码,用户ID

img

6.了解不同动作对用户实现和触发的难易程度(动作管理)
筛选条件:日/周/月 地区:省-市 绘本名称: 用户类型: 时间选择:开始时间,结束时间

img

我的解答思路和尝试过的方法

1.创建json表
create table aicsh(json string);
create table aitchby(json string);
create table aiyhdz(json string);

2,.解析json数据
多层json用 get_json_object
单层json用 json_tuple
目前日志是三个,各自独立,
日志的话我想合成一个多层json
创建对应器字段的大表,(这个要分区吗?按天还是月?)

json解析完成后写入大表

请教下各位,我怎么做,
需要根据不同的需求去创建一个存放结果的表吗?
然后怎样去计算着写指标?

只要有帮助就会采纳感谢,最好从头开始往下弄,从日志开始
有不合理请及时提出

  • 写回答

4条回答 默认 最新

  • 老哥讲数据库 2022-04-02 13:50
    关注
    获得8.00元问题酬金

    好像还没人回答,帮你热热场。
    根据我之前做hadoop的经验,跟你做的这个需求大同小异,我是统计安卓应用商店的各种维度报表。
    首先,你说要做合并成一个大的多层json,这个其实没甚必要,颗粒度越细越好,保持3个独立的json日志更好。
    其次,大表分区按天,归档按月。
    你这6个需求,创建6个表,分别存放结果,对你将来的结构和业务扩展有更大灵活性。
    计算指标的过程还是写UDF或者UDTF吧,做成函数,让SQL去调用起来。

    算是抛块砖,等玉。

    评论

报告相同问题?

问题事件

  • 系统已结题 4月9日
  • 修改了问题 4月1日
  • 修改了问题 4月1日
  • 赞助了问题酬金50元 4月1日
  • 展开全部

悬赏问题

  • ¥15 matlab有限元法求解梁带有若干弹簧质量系统的固有频率
  • ¥15 找一个网络防御专家,外包的
  • ¥100 能不能让两张不同的图片md5值一样,(有尝)
  • ¥15 informer代码训练自己的数据集,改参数怎么改
  • ¥15 请看一下,学校实验要求,我需要具体代码
  • ¥50 pc微信3.6.0.18不能登陆 有偿解决问题
  • ¥20 MATLAB绘制两隐函数曲面的交线
  • ¥15 求TYPCE母转母转接头24PIN线路板图
  • ¥100 国外网络搭建,有偿交流
  • ¥15 高价求中通快递查询接口