python 正则去除script标签及内容

re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*',re.I)#Script
the_page=re_script.sub('',the_page) #去掉SCRIPT

正则去除html的script标签,包括

、 、

总是去的不完全,求问正则要怎么改一下?

比如这个网址:http://m.yanqingkong.com/

1个回答

<(\s*script).*>.*</\1>
写了一个,具体还是发你的数据上来吧

wskia
小熊开发 回复alaieva: re.compile('<(script).*?>[\s\S]*?<\/\1>', re.I) 我测试是可以的
接近 3 年之前 回复
alaieva
alaieva 回复小熊开发: 可是还是不可以,去不了
接近 3 年之前 回复
wskia
小熊开发 回复alaieva: /<(script).*?>[\s\S]*?<\/\1>/i
接近 3 年之前 回复
alaieva
alaieva 抱歉,源码太长,不好粘贴,数据就是打开上面网址查看html网页,下面部分就是script,分为<script></script>、<script src='''></script>、<script type='''></script>几组部分,但不能完全去掉,请问要怎么做?
接近 3 年之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问
相关内容推荐