【萌芽求助】hive操作难倒

题目开始：
下表是用户访问网站的日志表TRLOG，每一条记录，代表者一个平台（PLATFORM）上的一个用户（USER_ID）在某一时间（CLICK_TIME）的一次页面访问（CLICK_URL）：
PLATFORM USER_ID CLICK_TIME CLICK_URL
WEB 12332321 2013-03-21 13:48:31.324 /home/
WEB 12332321 2013-03-21 13:48:32.954 /selectcat/er/
WEB 12332321 2013-03-21 13:48:46.365 /er/viewad/12.html
WEB 12332321 2013-03-21 13:48:53.651 /er/viewad/13.html
WEB 12332321 2013-03-21 13:49:13.435 /er/viewad/24.html
WEB 12332321 2013-03-21 13:49:35.876 /selectcat/che/
WEB 12332321 2013-03-21 13:49:56.398 /che/viewad/93.html
WEB 12332321 2013-03-21 13:50:03.143 /che/viewad/10.html
WEB 12332321 2013-03-21 13:50:34.265 /home/
WAP 32483923 2013-03-21 23:58:41.123 /m/home/
WAP 32483923 2013-03-21 23:59:16.123 /m/selectcat/fang/
WAP 32483923 2013-03-21 23:59:45.123 /m/fang/33.html
WAP 32483923 2013-03-22 00:00:23.984 /m/fang/54.html
WAP 32483923 2013-03-22 00:00:54.043 /m/selectcat/er/
WAP 32483923 2013-03-22 00:01:16.576 /m/er/49.html
…… …… …… ……
为了使题目叙述清晰，我们在上表中以用户12332321和32483923举例，将他们的访问按时间排了序，但实际的访问日志不是这样有序的，而是来一次访问就增加一条，平台、用户等等都是交错的，你懂的。
这个访问日志表积攒了若干天的用户访问记录，目前大约有20亿条数据，占用存储空间1TB。为了某些分析需求，我们需要把上述数据处理为如下结构的表ALLOG：
PLATFORM USER_ID SEQ FROM_URL TO_URL
WEB 12332321 1 NULL /home/
WEB 12332321 2 /home/ /selectcat/er/
WEB 12332321 3 /selectcat/er/ /er/viewad/12.html
WEB 12332321 4 /er/viewad/12.html /er/viewad/13.html
WEB 12332321 5 /er/viewad/13.html /er/viewad/24.html
WEB 12332321 6 /er/viewad/24.html /selectcat/che/
WEB 12332321 7 /selectcat/che/ /che/viewad/93.html
WEB 12332321 8 /che/viewad/93.html /che/viewad/10.html
WEB 12332321 9 /che/viewad/10.html /home/
WAP 32483923 1 NULL /m/home/
WAP 32483923 2 /m/home/ /m/selectcat/fang/
WAP 32483923 3 /m/selectcat/fang/ /m/fang/33.html
WAP 32483923 4 /m/fang/33.html /m/fang/54.html
WAP 32483923 5 /m/fang/54.html /m/selectcat/er/
WAP 32483923 6 /m/selectcat/er/ /m/er/49.html
…… …… …… ……
PLATFORM和USER_ID还是代表平台和用户ID；SEQ字段代表用户按时间排序后的访问顺序，FROM_URL和TO_URL分别代表用户从哪一页跳转到哪一页。对于某个平台上某个用户的第一条访问记录，其FROM_URL是NULL（空值）。
假设软硬件环境是：2个DataNode节点的实验用Hadoop 1.0.x集群，存储空间 6TB，Replication Factor为2；安装有Hive 0.90版本，数据表以逗号分隔的Delimited Text格式存储于HDFS。
为了实现上述需求，请你：
（1）实现基于纯Hive SQL的ETL过程，从TRLOG表生成ALLOG表；（结果是一套SQL）
（2）实现一个能加速上述处理过程的Hive Generic UDF，并给出使用此UDF实现ETL过程的Hive SQL；（结果是一个Hive Generic UDF的源文件，和一套SQL）
（3）你还有没有其他的方法实现这个 ETL？如果有，请任选一个方法，并提交代码。（结果是你找到的方法的代码，如果没有找到更好的方法，请回答“无”）

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2016-02-27 22:59
关注
http://wenku.baidu.com/link?url=Ogj_AWz9CPoDmiqj9JdRYSdEQTqbcmTqcAoZ4JztudCBPWmi-tgMZrYk8BuxOem34ULZi67Tb5Z7vL89peeWq3bOjJTH59_mTFyJEj7z63W

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

大数据 hive 实战数据
2022-04-07 14:10

在大数据处理领域，Hive是一个极其重要的工具，它被广泛应用于大数据分析和数据仓库操作。本实战数据集主要涉及两个核心部分：`video`数据和`user`数据，这些都是构建大数据分析模型的基础元素。让我们深入探讨一下...
利用Hive处理大数据实例
2024-04-24 09:53

爱欣欣.的博客搭建Hive环境请看这篇文章：Hive介绍与环境搭建-CSDN博客。
大数据-hive-基础
2023-06-04 21:55

大数据-hive-基础
大数据整理hadoop/hive
2023-06-15 19:01

大数据整理hadoop/hive
大数据技术之Hive.pptx
2020-04-28 08:05

Hive：由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL/SQL转化成MapReduce程序。 1）Hive处理...
大数据数据仓库hive框架搭建
2023-04-15 17:52

大数据数据仓库hive框架搭建，从零到配置hiveserver2，通俗易懂，详细步骤注解！！！
【大数据技术】实验3：熟悉常用的Hive操作
2022-07-29 14:40

悠哟哟的博客【大数据技术】实验3：熟悉常用的Hive操作
大数据之-hiveSQL
2024-08-18 14:30

大数据之-hiveSQL
2021年-Hive大数据仓库-期末考试知识点重点-笔记整理.pdf
2021-10-11 22:21

Hive大数据仓库知识点 Hive是一种基于Hadoop的大数据仓库工具，可以将结构化的数据文件映射为一个表，并提供类SQL查询功能。Hive的优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计。延迟较高，...
大数据组件相关介绍hive
2025-05-27 17:45

大数据组件相关介绍hive
没有解决我的问题, 去提问

【萌芽求助】hive操作难倒

1条回答 默认 最新

1条回答默认最新