【萌芽求助】hive操作难倒

题目开始：
下表是用户访问网站的日志表TRLOG，每一条记录，代表者一个平台（PLATFORM）上的一个用户（USER_ID）在某一时间（CLICK_TIME）的一次页面访问（CLICK_URL）：
PLATFORM USER_ID CLICK_TIME CLICK_URL
WEB 12332321 2013-03-21 13:48:31.324 /home/
WEB 12332321 2013-03-21 13:48:32.954 /selectcat/er/
WEB 12332321 2013-03-21 13:48:46.365 /er/viewad/12.html
WEB 12332321 2013-03-21 13:48:53.651 /er/viewad/13.html
WEB 12332321 2013-03-21 13:49:13.435 /er/viewad/24.html
WEB 12332321 2013-03-21 13:49:35.876 /selectcat/che/
WEB 12332321 2013-03-21 13:49:56.398 /che/viewad/93.html
WEB 12332321 2013-03-21 13:50:03.143 /che/viewad/10.html
WEB 12332321 2013-03-21 13:50:34.265 /home/
WAP 32483923 2013-03-21 23:58:41.123 /m/home/
WAP 32483923 2013-03-21 23:59:16.123 /m/selectcat/fang/
WAP 32483923 2013-03-21 23:59:45.123 /m/fang/33.html
WAP 32483923 2013-03-22 00:00:23.984 /m/fang/54.html
WAP 32483923 2013-03-22 00:00:54.043 /m/selectcat/er/
WAP 32483923 2013-03-22 00:01:16.576 /m/er/49.html
…… …… …… ……
为了使题目叙述清晰，我们在上表中以用户12332321和32483923举例，将他们的访问按时间排了序，但实际的访问日志不是这样有序的，而是来一次访问就增加一条，平台、用户等等都是交错的，你懂的。
这个访问日志表积攒了若干天的用户访问记录，目前大约有20亿条数据，占用存储空间1TB。为了某些分析需求，我们需要把上述数据处理为如下结构的表ALLOG：
PLATFORM USER_ID SEQ FROM_URL TO_URL
WEB 12332321 1 NULL /home/
WEB 12332321 2 /home/ /selectcat/er/
WEB 12332321 3 /selectcat/er/ /er/viewad/12.html
WEB 12332321 4 /er/viewad/12.html /er/viewad/13.html
WEB 12332321 5 /er/viewad/13.html /er/viewad/24.html
WEB 12332321 6 /er/viewad/24.html /selectcat/che/
WEB 12332321 7 /selectcat/che/ /che/viewad/93.html
WEB 12332321 8 /che/viewad/93.html /che/viewad/10.html
WEB 12332321 9 /che/viewad/10.html /home/
WAP 32483923 1 NULL /m/home/
WAP 32483923 2 /m/home/ /m/selectcat/fang/
WAP 32483923 3 /m/selectcat/fang/ /m/fang/33.html
WAP 32483923 4 /m/fang/33.html /m/fang/54.html
WAP 32483923 5 /m/fang/54.html /m/selectcat/er/
WAP 32483923 6 /m/selectcat/er/ /m/er/49.html
…… …… …… ……
PLATFORM和USER_ID还是代表平台和用户ID；SEQ字段代表用户按时间排序后的访问顺序，FROM_URL和TO_URL分别代表用户从哪一页跳转到哪一页。对于某个平台上某个用户的第一条访问记录，其FROM_URL是NULL（空值）。
假设软硬件环境是：2个DataNode节点的实验用Hadoop 1.0.x集群，存储空间 6TB，Replication Factor为2；安装有Hive 0.90版本，数据表以逗号分隔的Delimited Text格式存储于HDFS。
为了实现上述需求，请你：
（1）实现基于纯Hive SQL的ETL过程，从TRLOG表生成ALLOG表；（结果是一套SQL）
（2）实现一个能加速上述处理过程的Hive Generic UDF，并给出使用此UDF实现ETL过程的Hive SQL；（结果是一个Hive Generic UDF的源文件，和一套SQL）
（3）你还有没有其他的方法实现这个 ETL？如果有，请任选一个方法，并提交代码。（结果是你找到的方法的代码，如果没有找到更好的方法，请回答“无”）

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2016-02-27 22:59
关注
http://wenku.baidu.com/link?url=Ogj_AWz9CPoDmiqj9JdRYSdEQTqbcmTqcAoZ4JztudCBPWmi-tgMZrYk8BuxOem34ULZi67Tb5Z7vL89peeWq3bOjJTH59_mTFyJEj7z63W

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

大数据hive分区表导入数据的问题 hive 大数据
2018-01-07 12:34

回答 5 已采纳 http://blog.csdn.net/fjssharpsword/article/details/64919412
hive怎么拼接单引号 hive sql 大数据
2022-08-02 12:01

回答 7 已采纳不能用拼接，拼接之后用不了in，in是判断左边的字段是否在右边内容(集合)中，拼接的是一个字符串整体，不是集合。 SELECT sku_key,warehouse_key,SUM(quantity)
萌芽求救　HIVE启动失败 hive
2016-02-26 06:39

回答 1 已采纳问题已经解决，自己也是被集群折腾疯了！！！之前有导入ＭｙＳＱＬ的驱动ｊａｒ包，后来换了台机器，重新配置后给忘了！导入ｊａｒ包后，一切ｏｋ！也算贡献了的连接ＭｙＳＱＬ的配置信息！
大数据 hive 实战数据
2022-04-07 14:10

包含video user数据
如何优化hive动态分区写入速度？ hadoop hive 大数据
2022-05-21 17:53

回答 1 已采纳查询最后加上distribute by ORDERDATEsort by ORDERDATE distribute by按照指定的字段将数据划分到不同的输出reduce中，可以保证每个reduce处理
hive创建外部表导入csv数据格式出错 hadoop hive 大数据
2022-06-06 17:18

回答 2 已采纳在window用excel把csv改成\t 分割,建表分割符改成\t
数据仓库 大数据 apachhive hive 大数据数据仓库
2023-02-24 15:51

回答 1 已采纳是的，Apache Hive的分层就是指把不同维度的数据抽取出来，并根据不同的维度进行分类存放。通过这种方式，可以更好的管理数据，便于后续的查询和分析处理。
大数据实验六实验报告：熟悉Hive的基本操作
2022-06-20 17:26

题目：实验六：熟悉Hive的基本操作姓名：小猪猪日期：2022/5/15 1、实验环境：设备名称 LAPTOP-9KJS8HO6 处理器 Intel(R) Core(TM) i5-10300H CPU @ 2.50GHz 2.50 GHz 机带 RAM 16.0 GB (15.8 GB 可用) 主机操作...
hive数据分析和hbase编程的特点 hbase hive 大数据
2022-12-14 16:03

回答 1 已采纳 hive和hbase都是大数据平台上的组件。hive类似于关系型数据库，按行存储，非常适合对sql比较熟悉的人按照sql语句进行数据处理。hbase属于非关系型数据库，采用列式存储，非常适合统计类的数
Hive导入$$分隔符文件 hive 大数据数据仓库
2022-07-26 16:15

回答 1 已采纳不能用row format delimited fields terminated by，改用 ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.
请问大家为什么我连接hive无法执行插入语句呀 hive 大数据数据库
2023-03-14 10:08

回答 1 已采纳 job的执行错误，看下你的脚本代码，去掉可能出错的部分再试试看
大数据学习：Hive数据操作语言.pdf
2022-12-07 18:38

大数据学习：Hive数据操作语言.pdf
关于hive上NOT IN改为左连接left join hive sql 大数据
2022-04-28 23:51

回答 1 已采纳 DROP TABLE IF EXISTS TMP_YWJH_YKDZ_04;CREATE TABLE TMP_YWJH_YKDZ_04 ASSELECT A.*, B.LNX_NUM LNX_NUMF
Hive数据仓库之垃圾分类数据分析系统
2023-08-14 15:44

主要功能和技术说明如下：（1）Flume数据采集，HDFS数据储存（2）hive数据仓库分层设计，包含ODS、DWD、ADS层 ...（6）基于Cenots7 搭建虚拟机，配置Hadoop、HDFS、Hive、sqoop、flume、mysql等大数据组件。
HIVE文档，大数据离线技术基础
2022-09-08 08:38

大数据离线
没有解决我的问题, 去提问

悬赏问题

¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？
¥15 求daily translation（DT）偏差订正方法的代码
¥15 js调用html页面需要隐藏某个按钮
¥15 ads仿真结果在圆图上是怎么读数的
¥20 Cotex M3的调试和程序执行方式是什么样的？
¥20 java项目连接sqlserver时报ssl相关错误
¥15 一道python难题3
¥15 牛顿斯科特系数表表示
¥15 arduino 步进电机
¥20 程序进入HardFault_Handler

【萌芽求助】hive操作难倒

1条回答 默认 最新

悬赏问题

1条回答默认最新