今天爬学院的新闻网页,是aspx动态网页,琢磨了半天,发现只能使用cookie进行模拟登录
才会显示正确的内容,且只能将cookie写在header里如
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
'Connection': 'keep-alive',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Cookie': 'ASP.NET_SessionId=pbg5q555fmojkk55htfawlnx'}
再
r = requests.get(url, headers=headers)
才能正确显示,但是直接使用却没法爬取,这是因为什么
cookies = {'Cookie': 'ASP.NET_SessionId=pbg5q555fmojkk55htfawlnx'}
r = requests.get(url, cookies=cookies)
还有一个问题,得到这个页面后,用lxml,html5lib,html.parser解析得到的都不同,这又是因为什么。。