关于爬虫爬取动态网页的问题

今天爬学院的新闻网页,是aspx动态网页,琢磨了半天,发现只能使用cookie进行模拟登录
才会显示正确的内容,且只能将cookie写在header里如

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
           'Connection': 'keep-alive',
           'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
           'Cookie': 'ASP.NET_SessionId=pbg5q555fmojkk55htfawlnx'}

r = requests.get(url, headers=headers)

才能正确显示,但是直接使用却没法爬取,这是因为什么

cookies = {'Cookie': 'ASP.NET_SessionId=pbg5q555fmojkk55htfawlnx'}
r = requests.get(url, cookies=cookies)

还有一个问题,得到这个页面后,用lxml,html5lib,html.parser解析得到的都不同,这又是因为什么。。

2个回答

1.是服务器做了一些认证,所以需要其他的一些头,尤其User-Agent,这样它才认为你是浏览器等
2. 页面内容可能是ajax异步返回的,所以你get的时候,页面内容很多都是空的,这个你需要用webdriver的方式去获取页面内容

1.服务端验证你的cookie,是一种“反爬虫”措施
2.三种解析方法采用了不用的解析算法,推荐采用lxml,c扩展速度非常快,应用广泛

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问