14亿条有格式的数据怎么实现复杂条件下秒级查询

现在在mysql 有 14亿行数据，我现在是这么做的，将数据导出到hdfs，将数据根据一个
字段hash分区分成1000个小文件，用spark+kafka+redis ，web端发送条件到kafka
spark程序消费数据（条件），从hdfs读取对应的hash文件，条件判断之后将数据保存
到redis。有什么更好的解决方案吗，前提是机器内存有限16-32g左右。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
cjw_msn 2018-08-12 12:09
关注
先建立映射表，通过映射表进行条件查询hash 速度本来就很快，建立好映射了查询就快了。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

“产品名”相同的数据记录有多条，java用getByProName()查询报错 java 数据库
2017-04-26 06:44

回答 5 已采纳 ``` List list = productsDao.queryByProName(proName); ``` productsDao里的queryByProName方法改为返回Lis
时间格式问题，秒数的0不显示
2017-11-14 02:50

回答 1 已采纳 date.getHours()只能取到数值,返回值是int ,当小于10的时候，前面不会带"0"，要自己添加，建议使用new SimpleDateFormat("yyyy-MM-dd HH:mm:ss
pandas实现列之间条件判断的方法 python
2022-02-27 14:40

回答 1 已采纳用apply 和 lambda 实现 import pandas as pd def check_data(x): if x[0]>x[1]: return 1
基于大数据下的spark快速大数据分析.pdf
2022-12-24 11:33

基于大数据下的 Spark 快速大数据分析林海，王强，李英震（空军航空大学初级飞行训练基地二团，黑龙江哈尔滨 150100）摘要：在数据大爆炸的时代，随着数据量的激增，如何更快速地处理、使用这些规模...
SQL 连表查询用一个两表不想关的条件查询 sql
2016-11-14 05:33

回答 5 已采纳 select t1.B t2.D from t1,t2 where t1.A=t2.A and t1.C = ?
求问如何用Java实现多条件筛选匹配问题 eclipse java
2021-01-10 14:21

回答 1 已采纳人类，4个属性，加个主键房间，2个属性，加个主键每个具体房间实现一个抽象方法，accept（Person person）{return person的满足条件} personList ro
MySQL查询并计算指定日期范围内按照条件调整开窗函数的范围 mysql sql 数据库
2022-09-14 10:35

回答 1 已采纳 https://blog.csdn.net/xiyang_1990/article/details/118186595 |https://blog.csdn.net/t8116189520/art
Python 处理分析 14 亿条数据实战
2022-12-08 17:10

秃头雨雨的博客你用 Python 处理过的最大数据集有多大？我想大概不会超过上亿条吧，今天分享一个用 Python 处理分析 14 亿条数据的案例。
mysql 数据库，spring使用mybatis返回五万条数据花费一分钟时间，navicat中执行只有四五秒，如何优化mybatis spring
2020-02-13 16:29

回答 1 已采纳先排查问题，这种情况之前我也有遇到过，当时我的情况是这样的。mysql 直接执行，速度很快，也用到索引给方面，但是在使用 mybatis 的时候，忽略了个关键的东西，那就是 mybatis 会自动优化
sql 如何把三个不同的查询数据合并为一条
2016-09-14 06:32

回答 5 已采纳用with as 语句接收，然后对下图的时间进行group by，其它字段是否还要继续sum(字段).
SQL Server查询某一日期是否在某条记录的两个时间段之内 sql 有问必答
2022-01-17 10:20

回答 4 已采纳 select xx xx from 表名 where LocalProductionStart < 你传参的值 and LocalProductionE
调研----小米架构师：亿级大数据实时分析与工具选型
2018-02-22 19:03

张小凡vip的博客讲师介绍欧阳辰，超过15年的软件开发和设计经验，目前就职于小米公司，负责小米广告平台的架构研发。曾为微软公司工作10年，担任高级软件开发主管...大家好，很高兴能跟大家分享一些关于实时数据分析的话题。 ...
求助：顺丰大数据笔试题 mysql 有问必答
2021-04-19 16:17

回答 8 已采纳第四题 select count(*) from tab where arr_time <>leave_time and (arr_time between 2018-03-01 13
极光笔记 | 极光clickhouse千亿级数据分析实践之路
2022-10-28 18:21

极光JIGUANG的博客为了实现支持单表百亿数据集中查询分析时，能够灵活选择各种维度组合并且秒级返回执行结果，ClickHouse按列存储的特性便可以极大提升数据查询的效率，因为按列存储与按行存储相比，前者可以有效减少查询时所需扫描的...
ES 在数据量很大的情况下（数十亿级别）如何提高查询效率？
2022-03-27 23:30

Think_Higher的博客很多时候数据量大了，特别是有几亿条数据的时候，可能你会懵逼的发现，跑个搜索怎么一下 5-10s ，坑爹了。第一次搜索的时候，是 5~10s ，后面反而就快了，可能就几百毫秒。你就很懵，每个用户第一次访问都会比较慢...
没有解决我的问题, 去提问

悬赏问题

¥30 vmware exsi重置后登不上
¥15 易盾点选的cb参数怎么解啊
¥15 MATLAB运行显示错误，如何解决？
¥15 c++头文件不能识别CDialog
¥15 Excel发现不可读取的内容
¥15 关于#stm32#的问题：CANOpen的PDO同步传输问题
¥20 yolov5自定义Prune报错，如何解决？
¥15 电磁场的matlab仿真
¥15 mars2d在vue3中的引入问题
¥50 h5唤醒支付宝并跳转至向小荷包转账界面