大学生 大数据课程 ,需要向日葵远程操控完成
课程论文及课程答辩说明
课程论文分为两个部分:MapReduce应用实践和网站用户行为分析。
将网站用户行为分析部分的步骤③Hive、MySQL、HBase数据互导中所包含的“使用HBase Java API把数据从本地导入到HBase中”删除。
论文总体格式要求如下:
(1)要有功能描述,即,将代码实现的功能详细地描述出来,必要时给出具体例子;
(2)从开启Hadoop开始到结果展示,每一步命令均需截图展示,包括eclipse的新建项目和新建类的部分;软件安装代码不需要展示,仅需展示MapReduce应用实践和网站用户行为分析相关代码;命令的功能也可进行说明;
(3)用户名(下图中红色矩形圈注出的位置)以zzjjdd命名
一、MapReduce应用实践部分
1、内容
以下三种实现方法任选其一:(难度递增,分数也依次递增)
A. 采用Java编写并打包成JAR包的形式,用图片中给的代码实现功能,即课本154-156页的三个例子任选其一(三个例子代码在“MapReduce应用实践 相关材料-MapReduce代码”文档中);
B. 采用Java编写并打包成JAR包的形式,自行编写代码;
C. 采用python编写实现功能。
2、本部分格式要求:如果是自行编写的代码,要在标题处注明。
二、网站用户行为分析部分(实验指导网站:dblab.xmu.edu.cn/post/7499)
1、内容
A. 本部分分为三个步骤:①本地数据集上传到数据仓库Hive;②Hive数据分析;③Hive、MySQL、HBase数据互导。其中,步骤③Hive、MySQL、HBase数据互导中所包含的“使用HBase Java API把数据从本地导入到HBase中”不需要做,只需要做使用sqoop实现Hive、MySQL、HBase的数据互导。
B. “步骤②Hive数据分析”包含两个部分:实验指导网站中给出的行为分析题目和同学们自定义的三个行为分析题目。
C. “步骤④利用R进行数据可视化分析”是附加部分,同学们可自行选择做或不做。做的话会有额外相应的分数。
备注:上述“步骤②Hive数据分析”中命令的使用是答辩的考核部分