2条回答 默认 最新
lyhsdy 2018-12-24 02:06关注要做数据清洗都是找规律,LZ只给了一段,很难断定规则是不是都适用于所有在给出来的例子中
用正则表达式基本可以全部截取出来
re.find_all('>(.*?)<',html)可以获得1 4 5 这3个数据
然后用 re.search(r'"[0-9]{4}-[0-9]{1,2}-[0-9]{1,2}(.*?)"',html) 截取时间
re.search(r'https://gepinte.com/[0-9]{1,}.html',html) 截取网址本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
