alaieva 2017-11-21 10:56 采纳率: 0%
浏览 4195

python 正则去除script标签及内容

re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*',re.I)#Script
the_page=re_script.sub('',the_page) #去掉SCRIPT

正则去除html的script标签,包括

、 、

总是去的不完全,求问正则要怎么改一下?

比如这个网址:http://m.yanqingkong.com/

  • 写回答

1条回答 默认 最新

  • 小熊开发 2017-11-22 02:17
    关注

    <(\s*script).*>.*</\1>
    写了一个,具体还是发你的数据上来吧

    评论

报告相同问题?

悬赏问题

  • ¥15 slam rangenet++配置
  • ¥15 对于相关问题的求解与代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
  • ¥15 保护模式-系统加载-段寄存器
  • ¥15 电脑桌面设定一个区域禁止鼠标操作
  • ¥15 求NPF226060磁芯的详细资料
  • ¥15 使用R语言marginaleffects包进行边际效应图绘制
  • ¥20 usb设备兼容性问题
  • ¥15 错误(10048): “调用exui内部功能”库命令的参数“参数4”不能接受空数据。怎么解决啊