Hadoop起点

Every month I receive a CSV file, around 2 GB size. I import this file in a table in MySql database and this is almost instant.

Then using PHP, I query this table, filter data from this table and write relevant data to several other tables. This take several days - all queries are optimized.

I want to move this data to Hadoop but do not understand what should be the starting point. I am studying Hadoop and I know this can be done using Sqoop but still too confused, where to start in terms of how to migrate this data to Hadoop.

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
drra6593 2017-05-04 07:55
关注
Use Apache Spark may be in Python, as it easy to get started with. Though the use of Spark may be overkill, but given its speed and scalability there is no harm in putting some extra effort on this.

You might want to switch to any other databases that Spark directly provides APIs to access(Hive/Hbase etc). It is optional though because, with little extra code, you can right to MySql only if you don't want to change.

The overall design would be like this:

Your monthly CSV file will be on a known location on HDFS.

Spark application will read this file, do any transformations, write the results to MySql(or any other storage)

Systems involved:

HDFS

Spark

MySql/other storage

Optional cluster to make it scalable
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

hadoop和大数据、spark的关系该怎么理解？ hadoop spark 大数据
2022-06-23 13:55

回答 1 已采纳 Hadoop和Spark都是处理大数据的框架。就象你说关系型数据库，这只是一个概念，但是代表了一系列的含意，比如数据是结构化的，基于关系模型存储的。而MySQL、Oracle、SqlServer这些就
大数据、Hadoop hadoop 大数据
2022-12-19 16:44

回答 1 已采纳 format只需要对NameNode做，如果你在node3做了也没关系，删除node3上的、hdfs-site.xml中配置的NameNode对应的目录即可，然后在node1上也删除相同的目录后，重新
Hadoop平台搭建 hadoop
2022-04-20 08:36

回答 3 已采纳排查方向：1、检查host文件，看IP地址跟主机名对应关系2、检查防火墙，需要关闭3、在这一步，即使你做了ssh免密登录，排查方向还是在ssh这里，主要是检查node23节点有没有把公钥传输到你的ma
零基础自学Hadoop 一 大数据导论与Linux基础 01 大数据导论 1.2 数据分析基本步骤
2023-03-05 09:12

Ding Jiaxiong的博客零基础自学Hadoop 一 大数据导论与Linux基础 01 大数据导论 1.2 数据分析基本步骤
Hadoop起点 hadoop mysql php
2017-05-03 13:27

回答 1 已采纳 Use Apache Spark may be in Python, as it easy to get started with. Though the use of Spark may be
关于hadoop和spark大数据开发大数据
2016-06-12 05:52

回答 2 已采纳你好本人刚在大数据库处理方面学习对此有以下理解 1，大数据处理看到的注重点是对数据处理，字段与字段在oracle与oracle ，oracle与mysql，oracle与mariadb等数据
hadoop大数据平台搭建–集群部署hadoop平台 linux
2021-08-22 22:43

回答 3 已采纳服务器性能不够，或者是配置文件没配置对。
大数据、Hadoop、Hbase介绍
2022-09-06 15:20

Agatha方艺璇的博客可以是符号、文字、数字、语音、图像、视频等Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。HDFS：分布式文件系统，用于存储数据MapReduce：用于...
Hadoop集群搭建时问题 big data hadoop 大数据
2022-02-09 08:07

回答 1 已采纳题主的hadoop102 和 hadoop103 应该没有开sudo 对吧，直接使用ssh进行命令的启动恐怕是不行的，可以尝试写一个跳转的shell到每个node中进行sudo启动，关于sudo权限
大数据hadoop完全分布式安装配置怎么做 hadoop
2023-03-02 16:06

回答 3 已采纳小魔女参考了bing和GPT部分内容调写:要安装配置Hadoop的完全分布式，首先需要准备好master节点和slave节点，其中master节点需要安装jdk，slave节点只需要安装ssh服务，并
spark和hadoop hadoop spark 大数据
2022-12-23 16:57

回答 2 已采纳集群还在启动吧，还是在安全模式，无法创建文件夹，稍等一会儿集群完全启动成功后就可以了。
Hadoop生态圈 大数据文档
2021-12-01 09:45

BigData_XiaoBai的博客文档基于介绍基于Hadoop的大数据生态圈。介绍下图每一个组件的使用场景及使用方法，同时还对每一个组件有更深入的介绍。 ...
hadoop的端口占用问题 hadoop hdfs 大数据
2022-12-31 23:49

回答 1 已采纳如果你觉得端口号为2181被占用导致了你的resourcemanagerj启动失败的话，你可以使用下面的步骤来检查端口号2181是否被占用：1.在命令行中输入1sof-i:2181,查看端口号2181
Hadoop 大数据生态框架--Hive
2021-10-12 21:15

Lowrance_TT的博客 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序 Hive处理的数据存储在HDFS Hive分析数据底层的实现是MapReduce 执行程序运行...
大数据，为什么要学习Hadoop
2022-04-28 15:32

m0_67402341的博客 Hadoop是一个开源的【分布式计算 + 分布式存储平台】，是一个大数据的基础架构，基于此进行开发。 2、Haddop能做什么它能搭建大型数据仓库，PB级别数据的存储、处理、分析、统计等业务。主要的使用场景如：搜索...
没有解决我的问题, 去提问

悬赏问题

¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器

Hadoop起点

1条回答 默认 最新

悬赏问题

1条回答默认最新