python 正则去除script标签及内容

re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*',re.I)#Script
the_page=re_script.sub('',the_page) #去掉SCRIPT

正则去除html的script标签，包括

、、

总是去的不完全，求问正则要怎么改一下？

比如这个网址：http://m.yanqingkong.com/

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
小熊开发 2017-11-22 02:17
关注
<(\s*script).*>.*</\1>
写了一个，具体还是发你的数据上来吧

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python正则表达式匹配图片 python
2021-03-28 22:00

回答 6 已采纳 1、 url='您想爬的网址' head={ 'user_agent':'需要你使用的浏览器的请求头' } page_data=requests.get(url=url,headers=h
请问Python正则表达式如何匹配连续的四位数字 python 有问必答
2022-04-29 12:38

回答 5 已采纳题中年份后面表示日月最多6个字符，试试如下代码： import re s=['新书/20200412/价格22.6元','旧书1/2010.3/价格10.5元','旧书2/2008-3-5/价格8.8
python 如何通过正则匹配字符串后的数字 python 有问必答正则表达式
2022-06-18 11:51

回答 2 已采纳正则替换下，可以实现后面无数字，多位数字，或者为浮点数的格式 import re def getStr(s,dit): for item in dit: s=re.sub(i
python正则表达式匹配html指定标签内容_python正则表达式匹配html指定标签内容_Python使用正则表达式去除(过滤)HTML标签提...
2021-03-06 14:59

山江小力的博客 Python使用正则表达式去除(过滤)HTML标签提取文字功能，正则表达式是一个特殊的字符序列，可以帮助您使用模式中保留的专门语法来匹配或查找其他字符串或字符串集。正则表达式在UNIX世界中被广泛使用。下面给大家...
python 正则删除td标签下的p标签，但是保留文字 python 正则表达式
2021-10-29 16:21

回答 1 已采纳这不是正则干的活，你需要html解释器，然后递归一层一层进入里面，去标签
python在正则表达式中如何提取a标签中的内容？ python
2019-07-16 09:49

回答 3 已采纳用正则，然后获取对应组。 ```python #encoding=utf-8 import re data = '记事本' regex = '(.*?)' print(re.match(r
python正则表达式中‘|’是什么意思？ python
2022-03-29 09:36

回答 2 已采纳 '|'是“或”的意思，当“|”两边的表达式有一个或两个为“真”或者“非0”，则表达式结果为1；当“|”两边的表达式两个都为“假”或者“0”，则表达式结果为0。如：2 | 0，结果=11 | 1，结果=
Python正则匹配HTML,python正则匹配html标签_Python爬虫常用正则表达式及HTML网页标签分析总结...
2021-06-09 10:30

张雨莹呀的博客这篇文章主要是介绍Python爬取网页信息时，经常使用的正则表达式及方法。它是一篇总结性文章，实用性比较大，主要解决自己遇到的爬虫问题，也希望对你有所帮助~当然如果会Selenium基于自动化测试爬虫、BeautifulSoup...
python 正则表达式 python
2022-05-04 15:18

回答 1 已采纳假设a是字符串，b是查找结果 b = re.findall(r'\b[^,]*文[^,]*\b',a)b = re.findall(r'\ba\w*',a)b = re.findall(r'\b138
关于Python正则表达式的问题 python 正则表达式
2018-02-02 11:25

回答 3 已采纳 ^[abc].* 看看方括号的用法
python正则表达式替换问题 python 有问必答正则表达式
2021-12-11 12:14

回答 1 已采纳拆解一下content content = """苹果，苹果是绿色的橙子，橙子是橙色的香蕉，香蕉是黄色的 """ import re get_word = '' for i in content.
python正则匹配html标签_Python正则获取、过滤或者替换HTML标签的方法
2021-01-12 07:06

weixin_39645165的博客本文实例介绍了Python通过正则表达式获取,去除(过滤)或者替换HTML标签的几种方法，具体内容如下python正则表达式关键内容:python正则表达式转义符:. 匹配除换行符以外的任意字符\w 匹配字母或数字或下划线或汉字\s ...
python去掉html标签_Python:使用正则去除HTML标签(转)
2020-12-06 03:24

weixin_39576104的博客 # -*- coding: utf-8-*-import re##过滤HTML中的标签#将HTML中标签等信息去掉#@param htmlstr HTML字符串.def filter_tags(htmlstr):#先过滤CDATAre_cdata=re.compile('//]*//\]\]>',re.I) #匹配CDATAre_script=...
python正则匹配html标签_Python爬虫常用正则表达式及HTML网页标签分析总结
2020-12-29 07:14

weixin_39716043的博客这篇文章主要是介绍Python爬取网页信息时，经常使用的正则表达式及方法。它是一篇总结性文章，实用性比较大，主要解决自己遇到的爬虫问题，也希望对你有所帮助~当然如果会Selenium基于自动化测试爬虫、BeautifulSoup...
python3 正则去除 html标签、提取正文内容_Python使用正则表达式去除(过滤)HTML标签提取文字功能...
2020-12-15 22:53

sultan_song的博客下面给大家介绍下python使用正则表达式去除(过滤)html标签提取文字，具体代码如下所示：# -*- coding: utf-8-*-import re##过滤html中的标签#将html中标签等信息去掉#@param htmlstr html字符串.de...
没有解决我的问题, 去提问

悬赏问题

¥15 slam rangenet++配置
¥15 对于相关问题的求解与代码
¥15 ubuntu子系统密码忘记
¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
¥15 保护模式-系统加载-段寄存器
¥15 电脑桌面设定一个区域禁止鼠标操作
¥15 求NPF226060磁芯的详细资料
¥15 使用R语言marginaleffects包进行边际效应图绘制
¥20 usb设备兼容性问题
¥15 错误(10048): “调用exui内部功能”库命令的参数“参数4”不能接受空数据。怎么解决啊

python 正则去除script标签及内容

1条回答 默认 最新

悬赏问题

1条回答默认最新