集思广益，有个几百万关键字的文本匹配的算法，大家进来看看

关键字都是放在一个数组中的，譬如$keyword_arr=["key1","key2","example",......]，大约有几百万甚至上千万的关键字，这些关键字已经按照优先级从前到后排列了，越靠前的关键字优先匹配，匹配的最多次数是$max次；目前采用for循环$keyword_arr数组，然后将关键字组装成'/\b(?:'.$value.')\b/i';正则来匹配文本内容$text；如果已经匹配了$max次了，就停止匹配。

这个算法肯定是最低效的，大家有好的建议可以提出来，主要问题是关键字优先级有点麻烦

php: 目前采用正则匹配:

        foreach ($keyword_arr as $key=>$value) {
            $pattern = '/\\b(?:'.$value.')\\b/i';
            preg_match($pattern, $text, $match, PREG_OFFSET_CAPTURE);
            if ($match && trim($match[0][0]) != '' && !in_array(strtolower($match[0][0]), $match_keyword_arr)) {
                $match_keyword_arr[] = strtolower($match[0][0]);
                $count ++;
                if ($count >= $max) {
                    break;
                }
        }

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
kevin_Luan 2014-06-15 10:35
关注
类似这种处理不建议正则，大量使用正则会消耗很高的CPU。
优化方法：
建议使用状态机的方式实现。其实你的需求简单理解为通过一批关键字匹配关键字然后处理后续的业务等。

我之前处理相似的业务
1. 写了一个StringToken处理类
http://blog.csdn.net/kevin_luan/article/details/26875341
2. 敏感词过滤
http://download.csdn.net/detail/kevin_luan/7322435

我使用JAVA写的，不过PHP同样可以实现相似的业务，希望对你有所启发。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

猜数游戏，请大家集思广益,需要给出测试次数，需要用到下面的附件 c语言有问必答
2022-02-12 09:56

回答 7 已采纳菜单方式猜数游戏代码及运行结果如下：菜单：游戏过程及提示（提示数据范围）： #include <stdio.h> #include <stdlib.h> #include
好的编程规范有哪些，希望大家集思广益 c++
2015-08-31 10:50

回答 5 已采纳看《林锐-高质量C、C++编程指南》就你现在的水平，不需要什么集思广益和讨论，把那本教程看明白足够你学的了。
一个电子书页面应该有什么功能？ css html5
2022-01-14 08:21

回答 4 已采纳目录，翻页，续播，书签，笔记，调节字体大小等样式，缩放，调节白天黑夜模式静态页面的话这些差不多了
系统分析与设计知识点总结
2021-07-13 19:42

StuGeek的博客 1.1.1 系统（课程名称中第一个关键字）系统是一个非常笼统的术语可以是电气的、机械的…… 。计算系统是特定类型的系统。（我们关心）计算机系统被认为是在硬件和软件上进行计算。软件系统（课程涉及） ...
这个一直困惑着我有没有人会给指导一下，如何解决？(语言-python) python
2022-05-28 13:56

回答 3 已采纳所以这个问题是什么的，需求能说明白点吗
集思广益，求简单的思路 c语言
2021-11-11 09:57

回答 2 已采纳 #include <stdio.h> int main() { char s[]="123abcde456,789"; int i,j,k; if (3==ss
如何得到路径下的绝对路径并且回传到list上 python 大数据数据分析
2023-01-31 19:36

回答 9 已采纳写了个示例代码给你 import os path = "CBIS-DDSM" # 根目录 mass_test_list = [] mass_train_list = [] calc_test_l
人工智能发展简史
2020-11-04 12:12

Cl2212的博客人工智能发展简史第一章：起步期-20世纪50年代及以前人工智能到底是什么？通常来说，人工智能（Artificial Intelligence）是研究、开发用于模拟、...而像人工智能这样不断扩展边界的学科，更是很难做出一个相对准确的
亿条数据如何快速去重 big data 有问必答
2021-08-04 09:36

回答 5 已采纳 python 的 pandas库可以适用于此场景，有需要的大家可以了解一下，也很感谢几位老师对我的帮助感谢
问题:C语言怎么实现暂停功能 c语言
2022-10-29 18:13

回答 1 已采纳 system("pause");
谁会证明这公式啊谢！其他
2022-08-21 22:24

回答 2 已采纳字迹潦草
Java的前世今生
2017-07-09 21:43

Gane_Cheng的博客搞Java 6年了，一直想对Java有一个系统的认识，今天终于做了这件事。Java不仅仅是一门编程语言，还是一个由一系列计算机软件和规范形成的技术体系，这个技术体系提供了完整的用于软件开发和跨平台部署的支持环境，并...
如何使用HTML+CSS+JS+JQuery写出移动端页面 css html jquery
2021-11-19 21:42

回答 2 已采纳把px改成vw就好了
区块链技术
2018-01-10 17:35

老何_低调的博客但是也许你的室友是一个有打破沙锅问到底精神求是学子，因此你最好继续准好回答以下这几个问题。 1. “凭啥？” 你室友可能会问：“凭啥你喊一句话我就帮你记？我的小本本不要钱么？”。为了激励大家帮我...
没有解决我的问题, 去提问

悬赏问题

¥15 请教：如何用postman调用本地虚拟机区块链接上的合约？
¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题：[h264 @ 000000004faf7500]no frame？
¥15 乘性高斯噪声在深度学习网络中的应用
¥15 运筹学排序问题中的在线排序
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛

集思广益，有个几百万关键字的文本匹配的算法，大家进来看看

1条回答 默认 最新

悬赏问题

1条回答默认最新