TJ Zhang
2019-03-26 15:07
采纳率: 66.7%
浏览 692
已采纳

爬虫无法运行,请大神帮忙看下

想爬取豆瓣读书的书籍的链接、名字、作者、出版日期,但是电脑一直没有反应,大家帮忙看看

import requests
import re
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'
        }
content=requests.get('https://book.douban.com/',headers=headers).text
#print(content)
print("-----------")
pattern=re.compile('<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>',re.S)
results=re.findall(pattern,content)
print("-----------")
print(results)
for result in results:
    url,name,author,date=result
    author=re.sub('\s','',author)
    date=re.sub('\s','',date)
    print(url,name,author,date)
  • 写回答
  • 好问题 提建议
  • 关注问题
  • 收藏
  • 邀请回答

1条回答 默认 最新

  • threenewbee 2019-03-26 16:56
    已采纳

    用fiddler抓包看下,你发出的请求和得到的返回的数据,哪里有问题。
    或者调试下。

    已采纳该答案
    评论
    解决 无用
    打赏 举报

相关推荐 更多相似问题