爬虫初学。爬取当当网书籍评论,我想采用正则表达式提取评论信息(是unicode编码,提取之后再转文字)网页解析部分代码如下。
def parse_one_page(ilt,html):
pattern=re.compile('<span><a href.*?>(.*?)<\/a><\/span>',re.S)
comments=re.findall(pattern,html)
for comment in comments:
ilt.append(comment[0])
return ilt
求问我这个代码这样写为什么提取不出信息??