RudyPeng 2018-12-17 03:04 采纳率: 100%
浏览 1822
已采纳

关于爬虫爬取动态网页的问题

今天爬学院的新闻网页,是aspx动态网页,琢磨了半天,发现只能使用cookie进行模拟登录
才会显示正确的内容,且只能将cookie写在header里如

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
           'Connection': 'keep-alive',
           'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
           'Cookie': 'ASP.NET_SessionId=pbg5q555fmojkk55htfawlnx'}

r = requests.get(url, headers=headers)

才能正确显示,但是直接使用却没法爬取,这是因为什么

cookies = {'Cookie': 'ASP.NET_SessionId=pbg5q555fmojkk55htfawlnx'}
r = requests.get(url, cookies=cookies)

还有一个问题,得到这个页面后,用lxml,html5lib,html.parser解析得到的都不同,这又是因为什么。。

  • 写回答

2条回答 默认 最新

  • oyljerry 2018-12-17 09:01
    关注

    1.是服务器做了一些认证,所以需要其他的一些头,尤其User-Agent,这样它才认为你是浏览器等
    2. 页面内容可能是ajax异步返回的,所以你get的时候,页面内容很多都是空的,这个你需要用webdriver的方式去获取页面内容

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 安卓adb backup备份应用数据失败
  • ¥15 eclipse运行项目时遇到的问题
  • ¥15 关于#c##的问题:最近需要用CAT工具Trados进行一些开发
  • ¥15 南大pa1 小游戏没有界面,并且报了如下错误,尝试过换显卡驱动,但是好像不行
  • ¥15 没有证书,nginx怎么反向代理到只能接受https的公网网站
  • ¥50 成都蓉城足球俱乐部小程序抢票
  • ¥15 yolov7训练自己的数据集
  • ¥15 esp8266与51单片机连接问题(标签-单片机|关键词-串口)(相关搜索:51单片机|单片机|测试代码)
  • ¥15 电力市场出清matlab yalmip kkt 双层优化问题
  • ¥30 ros小车路径规划实现不了,如何解决?(操作系统-ubuntu)