关于mysql和hadoop数据交互的问题，和hadoop的文件夹设计

目前mysql按地区，商业区区分，假设读取mysql数据库的地区，根据地区划分

我昨天和领导沟通了，领导说点击率不是必要条件，地区划分才是重点，后面就是各方面劝导，只好以地区区分，关键是这个镇区区分数据和产品的话，全国有6k多个地区，

这样的hdfs文件夹数量，岂不是很崩溃，

后面感觉还有很多纬度和条件查询啥的，上头又喊了一句不一定要用hadoop，发挥hadoop啥啥优势，mysql多条件查询方便，好好做这个方案，然后我就一头雾水了，心里比较纠结和郁闷。最近搞mahout出了点成绩，发现单机版也挺好使（数据量少的前提下）,搜了搜房子，北京也就519,059这么多套房子在待售，没啥必要用hadoop，自我感觉，如果只是单独分析这些条数据519,059条，感觉不大，

如果你有好的博客和资源提供，麻烦提供url连接，谢谢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
不良使 Python领域潜力新星 2023-06-06 21:20
关注
关于 MySQL 和 Hadoop 之间的数据交互问题，可以考虑使用 Sqoop 工具进行数据传输，Sqoop 是基于 Hadoop 的开源工具，可以方便地将关系型数据库的数据导入到 Hadoop 中进行处理。对于高并发的数据访问，建议将 MySQL 配置成主从复制的方式，将查询操作和写操作分别分配到不同的服务器上，这样可以大幅提高 MySQL 的并发处理能力。

对于 Hadoop 的文件夹设计，可以根据需要进行分区和分桶设计，以提高查询性能。例如，可以按照地区、商圈、价格等维度进行分区和分桶，这样可以将数据划分为更小的数据集，提高查询效率。建议使用 Partitioner 类来进行数据分区，同时可以使用 Combiner 类来在 Map 阶段进行数据聚合，减少数据传输量和网络开销。

如果你的数据量相对较小，可以考虑直接使用 MySQL 进行数据处理和分析，并使用一些数据分析工具（如 R、Python 等）来分析数据。当数据量增大时，再考虑使用 Hadoop 等分布式计算平台进行数据处理和分析。

如果你想进一步了解 Hadoop 和大数据处理，可以参考以下一些资源：

《Hadoop权威指南》（Tom White 著）
《大数据处理：Spark和Hadoop实践》（Sandy Ryza 等著）
Hadoop 官方网站：http://hadoop.apache.org/
Spark 官方网站：https://spark.apache.org/
大数据资讯网站：http://www.infoq.com/cn/bigdata/
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

hadoop和大数据、spark的关系该怎么理解？ hadoop spark 大数据
2022-06-23 13:55

回答 1 已采纳 Hadoop和Spark都是处理大数据的框架。就象你说关系型数据库，这只是一个概念，但是代表了一系列的含意，比如数据是结构化的，基于关系模型存储的。而MySQL、Oracle、SqlServer这些就
大数据、Hadoop hadoop 大数据
2022-12-19 16:44

回答 1 已采纳 format只需要对NameNode做，如果你在node3做了也没关系，删除node3上的、hdfs-site.xml中配置的NameNode对应的目录即可，然后在node1上也删除相同的目录后，重新
关于#hadoop#的问题，请各位专家解答！ hadoop 大数据
2023-02-23 21:56

回答 1 已采纳该回答内容部分引用GPT，GPT_Pro更好的解决问题Hadoop的Historyserver是一个重要的组件，它可以用来收集和存储MapReduce作业的运行历史，以及相关的资源使用情况。它也负责提
大数据hadoop、mysql、hive超详细配置及问题解决
2022-04-07 10:58

小松_的博客 hadoop-3.1.3.tar.gz jdk-8u162-linux-x64.tar.gz mysql-5.7.30-linux-glibc2.12-x86_64.tar.gz apache-hive-3.1.2-bin.tar.gz 2、centos7版本前提下首先将相应压缩包上传到虚拟机中进入虚拟机centos cd use/...
大数据框架中的hadoop和hive spark presto tez是什么关系 hadoop hive spark
2022-12-24 10:29

回答 1 已采纳 Hadoop是一个分布式计算框架，可以在大数据集上运行分布式应用程序。它由许多组件组成，包括HDFS（分布式文件系统）和MapReduce（分布式计算引擎）。Hive是一个基于Hadoop的数据仓库系
spark和hadoop hadoop spark 大数据
2022-12-23 16:57

回答 2 已采纳集群还在启动吧，还是在安全模式，无法创建文件夹，稍等一会儿集群完全启动成功后就可以了。
hadoop1.x和2.x架构上的区别? hadoop 大数据数据挖掘
2022-10-26 11:41

回答 1 已采纳（1）Hadoop 1.0Hadoop 1.0即第一代Hadoop，由分布式存储系统HDFS和分布式计算框架MapReduce组成，其中，HDFS由一个NameNode和多个DataNode组成，Ma
大数据Hadoop之——新一代流式数据湖平台 Apache Hudi
2022-10-16 22:20

大数据老司机的博客 Hudi（Hadoop Upserts Deletes and Incrementals），简称Hudi，是一个流式数据湖平台，支持对海量数据快速更新，内置表格式，支持事务的存储层、一系列表服务、数据服务(开箱即用的摄取工具)以及完善的运维监控工具...
Hadoop集群搭建时问题 big data hadoop 大数据
2022-02-09 08:07

回答 1 已采纳题主的hadoop102 和 hadoop103 应该没有开sudo 对吧，直接使用ssh进行命令的启动恐怕是不行的，可以尝试写一个跳转的shell到每个node中进行sudo启动，关于sudo权限
hadoop进行数据分析缺少数据的输出 hadoop 大数据
2022-07-09 16:18

回答 1 已采纳问题解决了，不好提供数据源，是201.42的虚拟机实验Mapperpackage com.mystudy.hadoopPro; import java.io.IOException;import ja
关于#hadoop环境配置#的问题，如何解决？ hadoop hdfs java
2022-10-04 11:47

回答 1 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 请看👉 ：配置hadoop集群常见报错汇总如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助
基于Hadoop大数据技术和协同过滤算法的就业推荐系统
2022-12-28 18:48

计算机软件设计的博客基于Hadoop大数据技术和协同过滤算法的就业推荐系统
大数据hadoop完全分布式安装配置怎么做 hadoop
2023-03-02 16:06

回答 3 已采纳小魔女参考了bing和GPT部分内容调写:要安装配置Hadoop的完全分布式，首先需要准备好master节点和slave节点，其中master节点需要安装jdk，slave节点只需要安装ssh服务，并
大数据----Hadoop与数据仓库
2022-08-31 08:06

geejkse_seff的博客一个分片映射作用于一个或多个表，由管理员指定每个表上的哪些列...当多个表使用相同的映射和分片键时，这些表上包含相同列值（用于分片的列）的数据行将存在于同一个分片。单一事务可以访问一个分片中的所有数据。...
【大数据毕设】基于Hadoop的音乐管理系统论文(三)
2023-09-09 19:00

AI_Maynor的博客基于Hadoop的音乐推荐系统的课题研究目的主要包括以下几个方面：音乐数据处理和管理：收集音乐数据，并通过Hadoop的分布式文件系统HDFS对音乐数据进行存储和管理。此外，对音乐数据进行预处理和清洗，包括音乐信息的...
没有解决我的问题, 去提问

悬赏问题

¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog