14亿条有格式的数据怎么实现复杂条件下秒级查询

现在在mysql 有 14亿行数据，我现在是这么做的，将数据导出到hdfs，将数据根据一个
字段hash分区分成1000个小文件，用spark+kafka+redis ，web端发送条件到kafka
spark程序消费数据（条件），从hdfs读取对应的hash文件，条件判断之后将数据保存
到redis。有什么更好的解决方案吗，前提是机器内存有限16-32g左右。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
cjw_msn 2018-08-12 12:09
关注
先建立映射表，通过映射表进行条件查询hash 速度本来就很快，建立好映射了查询就快了。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

C#如何处理上亿级数据的查询效率
2024-07-18 02:36

网络小侦探的博客处理上亿级数据的查询效率是一个系统级的挑战，涉及多个层面的技术决策和实践。以下是几个关键点以及C#编程方面的示例策略：数据库优化：索引设计：确保对频繁查询和排序的字段建立了有效的索引。分区表：如果数据量...
大数据环境下数据脱敏的常见问题
2025-08-11 22:49

AI架构师小马的博客动态脱敏（Dynamic Masking）需在数据查询/传输时实时处理，对技术架构有更高要求：实时处理性能：大数据场景下，每秒数十万条记录的查询请求需在毫秒内完成脱敏，传统CPU密集型脱敏算法（如复杂加密）可能成为瓶颈...
基于python大数据的汽车数据分析系统设计与实现
2025-09-19 15:23

赵谨言的博客标题:基于python大数据的汽车数据分析系统设计与实现内容:1.摘要随着汽车行业的快速发展，海量的车辆运行数据和用户行为数据为行业带来了前所未有的机遇与挑战。本文旨在设计并实现一个基于Python的大数据汽车数据...
震撼登场！大数据下交易数据的挖掘策略
2025-10-05 15:42

程序员光剑的博客本文将以第一性原理为起点，系统拆解大数据下交易数据挖掘的核心逻辑：从“交易数据的本质特征”到“分布式架构设计”，从“关联规则的算法优化”到“实时欺诈检测的工程实现”，最终延伸至“隐私保护与伦理治理”的...
PostgreSQL 企业级用户画像 + 行为分析实战：替代 Hive，10 亿数据秒级响应
2025-11-16 20:49

码间拾光・菲林斯的博客该方案支持高并发写入（1000万条/天）的同时实现10亿级数据秒级分析响应，运维成本降低50%。文章详细展示了表结构设计、索引优化和四大核心分析场景（用户筛选、留存分析、RFM分层、行为路径）的实战SQL，并提供了...
大数据新视界 -- 大数据大厂之 Impala 性能优化：基于数据特征的存储格式选择（上）（19/30）
2024-11-13 20:30

青云交的博客本文围绕 Impala 基于数据特征的存储格式选择，阐述其意义、常见格式、选择策略，以社交媒体、物流、金融案例展示应用，探讨数据变化和多源融合挑战与应对，含代码和表格。助力 Impala 性能优化。
大数据新视界 -- Hive 数据分区：提升查询效率的关键步骤（下）（8/ 30）
2024-11-25 09:03

青云交的博客本文承前启后，深挖 Hive 数据分区提效步骤（修剪、合并、与缓存协同），附实例、代码、测试，析原理且解实操困境，具强参考价值，设互动并预告数据桶篇章。
调研----小米架构师：亿级大数据实时分析与工具选型
2018-02-22 19:03

AZ-直到世界的尽头的博客讲师介绍欧阳辰，超过15年的软件开发和设计经验，目前就职于小米公司，负责小米广告平台的架构研发。曾为微软公司工作10年，担任高级软件开发主管...大家好，很高兴能跟大家分享一些关于实时数据分析的话题。 ...
Python 处理分析 14 亿条数据实战
2022-12-08 17:10

秃头雨雨的博客你用 Python 处理过的最大数据集有多大？我想大概不会超过上亿条吧，今天分享一个用 Python 处理分析 14 亿条数据的案例。
大数据领域的交通数据洞察
2025-05-14 20:20

程序员光剑的博客随着城市化进程加速，全球机动车保有量突破14亿辆（2023年统计数据），交通拥堵导致的经济损失年均超过2万亿美元。传统交通管理手段已难以应对复杂动态的交通系统，基于大数据的智能交通解决方案成为破局关键。本文...
没有解决我的问题, 去提问

14亿条有格式的数据怎么实现复杂条件下秒级查询

3条回答 默认 最新

3条回答默认最新