2亿数量需要从20多个维度实时查询和统计,这个有没有啥好的方案来做?目前用mysql但是索引建立不了那么多啊 20C

2亿数量需要从20多个维度实时查询和统计,这个有没有啥好的方案来做?目前用mysql但是索引建立不了那么多啊,分表也试了效果也不好,具体是按月份分表那条件去各个表里查询然后代码汇总。这样时间还是长。不知道怎么弄了。
有没有好的方案?请回答者说明白点。我刚入门告诉我方法我去查谢谢各位大神。在线急等

u014510977
尛丶MaTure 有2亿数据,经常有人来根据不同条件让我们筛选求和。一个表里40来个字段。20个经常用的。
7 个月之前 回复
u014510977
尛丶MaTure 正在进行实验哈。最后采纳哈
7 个月之前 回复

8个回答

可以用spark分布式 Apache Spark是一种快速计算的快速集群计算。 它建立在Hadoop MapReduce之上,它扩展了MapReduce模型,以有效地使用更多类型的计算,包括交互式查询和流处理。

希望采纳

可以考虑并行话处理
或者大数据hadoop生态系统(hive或habse数据库)

elasticsearch 而且数据迁移也方便

u014510977
尛丶MaTure es是不是需要很大的内存?才行
7 个月之前 回复
n009ww
两个娃他爹 回复尛丶MaTure: 具体得看你的数据了,正常千万数据是毫秒级别
7 个月之前 回复
u014510977
尛丶MaTure es 1亿数据要扫描全表求和速度啥样?
7 个月之前 回复

做个统计表,把你关心的数据单独放到这个表里,减少数据量,然后再来查询

u014510977
尛丶MaTure 我想做到比较灵活的条件求和和查询。如果每个情况都提前预算的话。统计表太多太多了
7 个月之前 回复

需要看看你数据是啥样的 二十多个维度是啥

改动较小的方式 Mycat搭一个mysql集群 2亿数据且不是宽表加上分区索引 应该可以 不是很肯定 得试
elasticseach 6.0(不确定哪个版本) 之后又mysql的语句查询 导入数据也是其本身生态中的组件 可能单机都可以实现2亿毫秒级查询
如果上小型集群的话 并不建议使用spark 或是 MapReduce 你这这个数据量如果几乎没什么的增量数据的话可以考虑mpp类的impala,如果增量比较大的话可以试一下Druid说是kylin 都是Apache的开源组件 优先druid(http://druid.apache.org)

希望帮可以帮到你

u014510977
尛丶MaTure 回复尛丶MaTure: es是不是需要很大的内存?
7 个月之前 回复
u014510977
尛丶MaTure elasticseach 6.0(不确定哪个版本) 之后又mysql的语句查询 导入数据也是其本身生态中的组件 可能单机都可以实现2亿毫秒级查询 这句不理解,意思是说es可以达到我得效果对吧?我数据量增增长的极限就是2亿条。一个表一天增长5-8万条。mpp类的impala没听过。es数据达到1亿多的时候直接全量求和也会很快么?
7 个月之前 回复

看到大家的方案,都是就技术直接展开,我在想原始的需求是什么?2亿数量的多维度实时查询?这样的业务需求比较罕见。
通常的思路之一是,历史数据的定向整合-》中间计算表-》查询(监控系统,毫秒级大量数据入库,形成庞大的历史数据,
可以生产指导生产的各种图表)

u014510977
尛丶MaTure 有2亿数据,经常有人来根据不同条件让我们筛选求和。一个表里40来个字段。20个经常用的。
7 个月之前 回复

table store的多元索引完全符合需求

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问