使用正则表达式（无能）在网页中查找重复的单词

I'm trying to figure out a way to use regular expressions to find duplicate words on a webpage, I'm completely clueless and apologise in advance if I'm using the incorrect terminology.

So far I've found the following regular expressions which work well but only on words that are consecutively (e.g. hello hello) but not words that are placed in different parts of the webpage or separated by another word (e.g. hello food hello)

\b(\w+)(\s+\1\b)*

\b(\w+(?:\s*\w*))\s+\1\b

I would be super grateful to anyone that can help, I realise I might not be in the right place since I'm basically a noob.

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
douhan1860 2018-09-19 00:23
关注
Capture the first word (surrounded by word boundaries) in a group, and then backreference it later in a lookahead, after repeating optional characters in between:

\b(\w+)\b(?=.*\b\1\b)

https://regex101.com/r/TcS1UW/3
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

想使用正则表达式匹配，提取文本中特定的内容。 python 正则表达式
2022-01-19 16:23

回答 2 已采纳这应该就是你想要的功能： import os, re def GetMiddleStr(content,startStr,endStr): '''提取字符串content当中，startStr
如何在正则表达式中使用变量？ javascript 前端正则表达式
2022-01-09 11:44

回答 1 已采纳 /regex\d/g您可以构造一个新的RegExp对象，而不使用语法：var replace = "regex\d";var re = new RegExp(replace,"g"); 您可以通过这种
使用java正则表达式匹配日期 java 正则表达式
2020-01-31 15:18

回答 1 已采纳 ``` ^\d{4}-0*((1|3|5|7|8|10|12)-0*([1-9]|[1-2]\d|3[0-1])|(4|6|9|11)-0*([1-9]|[1-2]\d|30)|2-0*([1-
55分钟学会正则表达式
2019-10-08 18:46

dbql10359的博客当在文本编辑器中编辑文字时，正则表达式经常用于：检查文本是否包含一个给定的模式查找任何匹配的模式从文本中拉取信息（比如截断）修改文本和文本编辑器一样，绝大多数高级编程语言支持正则表达式。...
如何在Java中使用正则表达式匹配多个内容? java 正则表达式
2017-07-30 01:47

回答 1 已采纳如果传入的只有1行，那只会匹配一个如果传入的是全部文本，需要用 while(m.find()) { }
正则表达式如何写，在一段字符串中提取指定的内容。 python 正则表达式
2022-05-03 20:38

回答 8 已采纳 import re text = """福建省2022年道路交通事故人身损害赔偿相关数据【福建一般地区（除厦门外）】 1、全省城镇居民人均年可支配收入 51140元2、全省农村居民人均年可支配收
C#正则表达式查找非纯数字的字符 c# 正则表达式
2022-04-27 01:53

回答 6 已采纳 (([a-zA-Z_])([a-zA-Z0-9_])+)|(([0-9])([a-zA-Z_])+)
正则表达式
2015-06-23 23:08

weixin_30276935的博客当在文本编辑器中编辑文字时，正则表达式经常用于：1、检查文本是否包含一个给定的模式2、查找任何匹配的模式3、从文本中拉取信息（比如截断）4、修改文本和文本编辑器一样，绝大多数高级编程语言支持正则表达式。在...
Python正则表达式处理掉重复单词 python 正则表达式
2021-10-17 10:16

回答 2 已采纳 s="hello, big big red red hat hat you know small small green green cat cat" import re new_s = re.sub
java 正则表达式解析公式问题 java 有问必答正则表达式
2021-07-07 10:44

回答 3 已采纳 /(\-?[^\+\-\*\/]+)([\+\-])((?:[^\+\-\*/]|[-](?=[0-9]))+)/gi.exec('lineData(1,"debit”)+adjustHis("801
使用正则表达式提取文本数据，正则表达式如何写 python 有问必答正则表达式爬虫
2021-10-25 18:26

回答 2 已采纳 regex = r"('gender':\s*{[^}]+})|('glasses':\s*{[^}]+})|('emotion':.+.jpg')" 不清楚是否你每个文件都是类似的，如果不行，再
55分钟学会正则表达式(译)
2014-03-21 18:22

洛阳纸迷的博客当在文本编辑器中编辑文字时，正则表达式经常用于：检查文本是否包含一个给定的模式查找任何匹配的模式从文本中拉取信息（比如截断）修改文本和文本编辑器一样，绝大多数高级编程语言支持正则表达式。在本文...
java正则表达式使用不正确 java 正则表达式
2022-11-08 16:54

回答 2 已采纳 Set set = new HashSet(); String s = "p1&p2"; Matcher matcher = Pattern.comp
Java经典面试题带答案（三）
2021-07-27 15:17

编程ID的博客 Java经典面试题带答案（三） 1、面向对象的特征有哪些方面？答：面向对象的特征主要有以下几个方面：抽象：抽象是将一类对象的共同特征总结出来构造类的过程，包括数据抽象和行为抽象两方面。抽象只关注对象有...
Java就业面试问题大全
2016-07-19 22:30

苏柳凝烟的博客 Java就业面试问题汇总
没有解决我的问题, 去提问

悬赏问题

¥17 pro*C预编译“闪回查询”报错SCN不能识别
¥15 微信会员卡接入微信支付商户号收款
¥15 如何获取烟草零售终端数据
¥15 数学建模招标中位数问题
¥15 phython路径名过长报错不知道什么问题
¥15 深度学习中模型转换该怎么实现
¥15 HLs设计手写数字识别程序编译通不过
¥15 Stata外部命令安装问题求帮助！
¥15 从键盘随机输入A-H中的一串字符串，用七段数码管方法进行绘制。提交代码及运行截图。
¥15 TYPCE母转母，插入认方向

使用正则表达式（无能）在网页中查找重复的单词

2条回答 默认 最新

悬赏问题

2条回答默认最新