u010991835 2016-03-23 07:50 采纳率: 0%
浏览 665

关于mysql和hadoop数据交互的问题,和hadoop的文件夹设计

关于mysql和hadoop数据交互的问题,和hadoop的文件夹设计

关于mysql和hadoop数据交互的问题,和hadoop的文件夹设计

目前mysql按地区,商业区区分,假设读取mysql数据库的地区,根据地区划分

我昨天和领导沟通了,领导说点击率不是必要条件,地区划分才是重点,后面就是各方面劝导,只好以地区区分,关键是这个镇区区分数据和产品的话,全国有6k多个地区,

这样的hdfs文件夹数量,岂不是很崩溃,

后面感觉还有很多纬度和条件查询啥的,上头又喊了一句不一定要用hadoop,发挥hadoop啥啥优势,mysql多条件查询方便,好好做这个方案,然后我就一头雾水了,心里比较纠结和郁闷。最近搞mahout出了点成绩,发现单机版也挺好使(数据量少的前提下),搜了搜房子,北京也就519,059这么多套房子在待售,没啥必要用hadoop,自我感觉,如果只是单独分析这些条数据519,059条,感觉不大,

如果你有好的博客和资源提供,麻烦提供url连接,谢谢

  • 写回答

1条回答 默认 最新

  • 不良使 Python领域潜力新星 2023-06-06 21:20
    关注

    关于 MySQL 和 Hadoop 之间的数据交互问题,可以考虑使用 Sqoop 工具进行数据传输,Sqoop 是基于 Hadoop 的开源工具,可以方便地将关系型数据库的数据导入到 Hadoop 中进行处理。对于高并发的数据访问,建议将 MySQL 配置成主从复制的方式,将查询操作和写操作分别分配到不同的服务器上,这样可以大幅提高 MySQL 的并发处理能力。

    对于 Hadoop 的文件夹设计,可以根据需要进行分区和分桶设计,以提高查询性能。例如,可以按照地区、商圈、价格等维度进行分区和分桶,这样可以将数据划分为更小的数据集,提高查询效率。建议使用 Partitioner 类来进行数据分区,同时可以使用 Combiner 类来在 Map 阶段进行数据聚合,减少数据传输量和网络开销。

    如果你的数据量相对较小,可以考虑直接使用 MySQL 进行数据处理和分析,并使用一些数据分析工具(如 R、Python 等)来分析数据。当数据量增大时,再考虑使用 Hadoop 等分布式计算平台进行数据处理和分析。

    如果你想进一步了解 Hadoop 和大数据处理,可以参考以下一些资源:

    1. 《Hadoop权威指南》(Tom White 著)
    2. 《大数据处理:Spark和Hadoop实践》(Sandy Ryza 等著)
    3. Hadoop 官方网站:http://hadoop.apache.org/
    4. Spark 官方网站:https://spark.apache.org/
    5. 大数据资讯网站:http://www.infoq.com/cn/bigdata/
    评论

报告相同问题?

悬赏问题

  • ¥15 matlab数字图像处理频率域滤波
  • ¥15 在abaqus做了二维正交切削模型,给刀具添加了超声振动条件后输出切削力为什么比普通切削增大这么多
  • ¥15 ELGamal和paillier计算效率谁快?
  • ¥15 file converter 转换格式失败 报错 Error marking filters as finished,如何解决?
  • ¥15 ubuntu系统下挂载磁盘上执行./提示权限不够
  • ¥15 Arcgis相交分析无法绘制一个或多个图形
  • ¥15 关于#r语言#的问题:差异分析前数据准备,报错Error in data[, sampleName1] : subscript out of bounds请问怎么解决呀以下是全部代码:
  • ¥15 seatunnel-web使用SQL组件时候后台报错,无法找到表格
  • ¥15 fpga自动售货机数码管(相关搜索:数字时钟)
  • ¥15 用前端向数据库插入数据,通过debug发现数据能走到后端,但是放行之后就会提示错误