weixin_44929670
weixin_44929670
采纳率0%
2021-03-08 23:14

怎么使用re提取下面图片中下划线的内容啊,我这不行。

 

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享
  • 邀请回答

1条回答

  • funny123 coagenth 1月前

    可以用re.findall('[0-9\u4E00-\u9FA5]+',s)获取中文及数字,再根据需要析出自己想要的内容。对整个网页文本用正则匹配是比较繁琐的,要么匹配不到,要么就是很多不想要的内容也匹配出来,正常情况下使用bs4解析后,用soup.select()选取节点得到属性值或文本等相关内容。

    针对你提供的代码段及需求,获取办法:

    res1 = re.findall('<p.*>([0-9\u4E00-\u9FA5]+)|([0-9\u4E00-\u9FA5]+)', s)

    result=[x for m in res1 for x in m if x!='']

     

    点赞 1 评论 复制链接分享

为你推荐