RudyPeng 2018-12-17 03:04 采纳率: 100%
浏览 1822
已采纳

关于爬虫爬取动态网页的问题

今天爬学院的新闻网页,是aspx动态网页,琢磨了半天,发现只能使用cookie进行模拟登录
才会显示正确的内容,且只能将cookie写在header里如

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
           'Connection': 'keep-alive',
           'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
           'Cookie': 'ASP.NET_SessionId=pbg5q555fmojkk55htfawlnx'}

r = requests.get(url, headers=headers)

才能正确显示,但是直接使用却没法爬取,这是因为什么

cookies = {'Cookie': 'ASP.NET_SessionId=pbg5q555fmojkk55htfawlnx'}
r = requests.get(url, cookies=cookies)

还有一个问题,得到这个页面后,用lxml,html5lib,html.parser解析得到的都不同,这又是因为什么。。

  • 写回答

2条回答

  • oyljerry 2018-12-17 09:01
    关注

    1.是服务器做了一些认证,所以需要其他的一些头,尤其User-Agent,这样它才认为你是浏览器等
    2. 页面内容可能是ajax异步返回的,所以你get的时候,页面内容很多都是空的,这个你需要用webdriver的方式去获取页面内容

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥60 版本过低apk如何修改可以兼容新的安卓系统
  • ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
  • ¥50 有数据,怎么建立模型求影响全要素生产率的因素
  • ¥50 有数据,怎么用matlab求全要素生产率
  • ¥15 TI的insta-spin例程
  • ¥15 完成下列问题完成下列问题
  • ¥15 C#算法问题, 不知道怎么处理这个数据的转换
  • ¥15 YoloV5 第三方库的版本对照问题
  • ¥15 请完成下列相关问题!
  • ¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像,如何解决?