亿级数据使用solr或es如何实现【精确模糊（不分词），秒级，多字段】查询？

试用过ngram大小为1，速度不理想

或有其他方式实现都可

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
码农阿豪@新空间新星创作者: 前端开发技术领域 2024-07-22 23:28
关注
让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言
问题：如何优化ngram大小为1的方法以提高执行速度？回答：有几种方法可以优化ngram大小为1的方法以提高执行速度：
使用ngram大小为1的快速实现算法：使用哈希算法存储ngram大小为1的结果，以提高查找速度。案例：

from collections import defaultdict def create_ngram(text, n): ngram_dict = defaultdict(int) for i in range(len(text) - n + 1): ngram = text[i:i+n] ngram_dict[ngram] += 1 return ngram_dict text = "hello world" ngram_dict = create_ngram(text, 1) print(ngram_dict)

优化ngram数据结构：使用字典或集合等数据结构来存储ngram结果，以提高查找速度。案例：

from collections import defaultdict def create_ngram(text, n): ngram_dict = defaultdict(int) for i in range(len(text) - n + 1): ngram = text[i:i+n] ngram_dict[ngram] += 1 return ngram_dict text = "hello world" ngram_dict = create_ngram(text, 1) print(ngram_dict)

使用并行计算：将ngram计算任务分解为多个子任务，并行计算，以提高执行速度。案例：

from concurrent.futures import ThreadPoolExecutor def create_ngram(text, n): ngram_dict = defaultdict(int) for i in range(len(text) - n + 1): ngram = text[i:i+n] ngram_dict[ngram] += 1 return ngram_dict text = "hello world" n = 1 ngram_dict = defaultdict(int) with ThreadPoolExecutor(max_workers=4) as executor: for i in range(len(text) - n + 1): ngram = text[i:i+n] future = executor.submit(create_ngram, ngram, n) ngram_dict += future.result() print(ngram_dict)

以上是三种优化ngram大小为1的方法以提高执行速度的建议。根据实际情况选择合适的方法来进行优化。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

es对几十亿数据能达到秒级响应吗_ElasticSearch 亿级数据检索深度优化！
2020-12-21 22:00

weixin_39618339的博客一、前言数据平台已迭代三个版本，从头开始遇到很多常见的难题，终于有片段时间整理一些已完善的文档，在此分享以供所需朋友的实现参考，少走些弯路，在此篇幅中偏重于ES的优化，关于HBase，Hadoop的设计优化估计有...
使用elasticsearch实现十亿级数据的查询性能优化
2019-06-28 11:07

修炼到救赎的博客一、前言数据平台已迭代三个版本，...实现参考，少走些弯路，在此篇幅中偏重于ES的优化，关于HBase，Hadoop的设计优化估计有很多文章可以参考，不再赘述。二、需求说明项目背景：在一业务系统中，部分表每天的数...
Solr 与 Elasticsearch 全文检索深度对比：从基础使用到中文分词热更新实战
2025-12-10 14:07

Java八股文的博客场景推荐引擎强一致性、复杂查询、企业级搜索Solr日志/时序数据、快速迭代、高写入吞吐DevOps 监控、Kibana 可视化需求已有 Hadoop / HBase 生态Solr（集成更自然）中文搜索 + 灵活分词扩展两者均可，ES 社区插件更...
es对几十亿数据能达到秒级响应吗_分库代价高的情况下，如何优化ES解决亿级数据量检索...
2021-01-13 05:15

weixin_39926016的博客数据平台已迭代三个版本，从一开始遇到很多常见的难题，到现在终于有片段时间整理一些已完善的文档，在此分享以供所需朋友的实现参考，但愿能帮助大家少走些弯路，在此篇幅中偏重于ElasticSearch的优化。一、需求...
ES分词查询
2023-12-14 22:22

一只欢脱的知更鸟呀的博客 Solr使用zookeeper进行分布式管理，而ES自身带有分布式协调管理Solr支持更多格式数据，而ES仅支持jsonSolr官方提供功能更多，而ES本身更注重核心功能，高级功能由第三方插件提供ES在处理实时搜索应用时效高于...
es查询size大短时间数据查不出_elasticsearch 亿级数据检索案例与原理
2021-01-19 16:43

深圳明星眼镜店的博客一、前言数据平台已迭代三个版本，从头开始遇到很多常见的难题，终于有片段时间整理一些已完善的文档，在此分享以供所需朋友的实现参考，少走些弯路，在此篇幅中偏重于ES的优化，关于HBase，Hadoop的设计优化估计有...
Lucene轻量级搜索引擎,Solr 和 ElasticSearch 都是基于 Lucene 的封装
2024-03-11 21:30

一零贰肆的博客 Lucene 是一个本地全文搜索引擎,Solr 和 ElasticSearch 都是基于 Lucene 的封装
es对几十亿数据能达到秒级响应吗_几十亿数据查询3秒返回，ES性能优化实战！...
2020-12-21 22:00

weixin_39595430的博客公司的数据平台已迭代三个版本，从头开始遇到很...需求说明项目背景：在一业务系统中，部分表每天的数据量过亿，已按天分表，但业务上受限于按天查询，并且 DB 中只能保留 3 个月的数据(硬件高配)，分库代价较高。改...
Solr与Elasticsearch 的对比与选型
2025-01-22 22:45

码上飞扬的博客 Apache Solr 是一个基于 Apache Lucene 的企业级搜索平台，提供强大的全文检索功能，支持分布式搜索和索引。Solr 的核心特点包括丰富的功能、稳定性和高可扩展性。
Apache Solr 和 Elasticsearch 对比速览
2025-06-13 21:51

csdn_tom_168的博客 Solr提供丰富查询语法和Facet聚合，Elasticsearch则擅长DSL查询和复杂聚合分析。二者都支持地理位置搜索，但Elasticsearch独有图搜索功能。性能上Elasticsearch吞吐量更高延迟更低，Solr则更适合高并发场景。生态...
没有解决我的问题, 去提问

亿级数据使用solr或es如何实现【精确模糊（不分词），秒级，多字段】查询？

1条回答 默认 最新

1条回答默认最新