RudyPeng 2018-12-17 03:04 采纳率: 100%
浏览 1822
已采纳

关于爬虫爬取动态网页的问题

今天爬学院的新闻网页,是aspx动态网页,琢磨了半天,发现只能使用cookie进行模拟登录
才会显示正确的内容,且只能将cookie写在header里如

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
           'Connection': 'keep-alive',
           'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
           'Cookie': 'ASP.NET_SessionId=pbg5q555fmojkk55htfawlnx'}

r = requests.get(url, headers=headers)

才能正确显示,但是直接使用却没法爬取,这是因为什么

cookies = {'Cookie': 'ASP.NET_SessionId=pbg5q555fmojkk55htfawlnx'}
r = requests.get(url, cookies=cookies)

还有一个问题,得到这个页面后,用lxml,html5lib,html.parser解析得到的都不同,这又是因为什么。。

  • 写回答

2条回答 默认 最新

  • oyljerry 2018-12-17 09:01
    关注

    1.是服务器做了一些认证,所以需要其他的一些头,尤其User-Agent,这样它才认为你是浏览器等
    2. 页面内容可能是ajax异步返回的,所以你get的时候,页面内容很多都是空的,这个你需要用webdriver的方式去获取页面内容

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 用matlab 设计一个不动点迭代法求解非线性方程组的代码
  • ¥15 牛顿斯科特系数表表示
  • ¥15 arduino 步进电机
  • ¥20 程序进入HardFault_Handler
  • ¥15 oracle集群安装出bug
  • ¥15 关于#python#的问题:自动化测试
  • ¥20 问题请教!vue项目关于Nginx配置nonce安全策略的问题
  • ¥15 教务系统账号被盗号如何追溯设备
  • ¥20 delta降尺度方法,未来数据怎么降尺度
  • ¥15 c# 使用NPOI快速将datatable数据导入excel中指定sheet,要求快速高效