zzzzls~ 2018-12-23 12:23 采纳率: 100%
浏览 4566
已采纳

字符串 截取部分内容 , 求提取方案

如图

图片说明

需要截取图中画框内容

  • 写回答

2条回答 默认 最新

  • lyhsdy 2018-12-24 02:06
    关注

    要做数据清洗都是找规律,LZ只给了一段,很难断定规则是不是都适用于所有在给出来的例子中
    用正则表达式基本可以全部截取出来
    re.find_all('>(.*?)<',html)可以获得1 4 5 这3个数据
    然后用 re.search(r'"[0-9]{4}-[0-9]{1,2}-[0-9]{1,2}(.*?)"',html) 截取时间
    re.search(r'https://gepinte.com/[0-9]{1,}.html',html) 截取网址

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?