TJ Zhang 2019-03-26 15:07 采纳率: 66.7%
浏览 696
已采纳

爬虫无法运行,请大神帮忙看下

想爬取豆瓣读书的书籍的链接、名字、作者、出版日期,但是电脑一直没有反应,大家帮忙看看

import requests
import re
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'
        }
content=requests.get('https://book.douban.com/',headers=headers).text
#print(content)
print("-----------")
pattern=re.compile('<li.*?cover.*?href="(.*?)".*?title="(.*?)".*?more-meta.*?author">(.*?)</span>.*?year">(.*?)</span>.*?</li>',re.S)
results=re.findall(pattern,content)
print("-----------")
print(results)
for result in results:
    url,name,author,date=result
    author=re.sub('\s','',author)
    date=re.sub('\s','',date)
    print(url,name,author,date)
  • 写回答

1条回答 默认 最新

  • threenewbee 2019-03-26 16:56
    关注

    用fiddler抓包看下,你发出的请求和得到的返回的数据,哪里有问题。
    或者调试下。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥100 求数学坐标画圆以及直线的算法
  • ¥35 平滑拟合曲线该如何生成
  • ¥100 c语言,请帮蒟蒻写一个题的范例作参考
  • ¥15 名为“Product”的列已属于此 DataTable
  • ¥15 安卓adb backup备份应用数据失败
  • ¥15 eclipse运行项目时遇到的问题
  • ¥15 关于#c##的问题:最近需要用CAT工具Trados进行一些开发
  • ¥15 南大pa1 小游戏没有界面,并且报了如下错误,尝试过换显卡驱动,但是好像不行
  • ¥15 自己瞎改改,结果现在又运行不了了
  • ¥15 链式存储应该如何解决