python爬取淘宝评论返回内容是登录信息

import requests
url='https://rate.tmall.com/list_detail_rate.htm?itemId=35648967399&spuId=226460655&sellerId=1809124267ℴ=3¤tPage=1&append=0&content=1&tagId=&posi=&picture=&ua=011UW5TcyMNYQwiAiwQRHhBfEF8QXtHcklnMWc%3D%7CUm5OcktyT3ZCf0B9Qn9GeC4%3D%7CU2xMHDJ7G2AHYg8hAS8WKAYmCFQ1Uz9YJlxyJHI%3D%7CVGhXd1llXGVYYVVoV2pVaFFvWGVHe0Z%2FRHFMeUB4QHxCdkh8SXJcCg%3D%3D%7CVWldfS0RMQ47ASEdJwcpSDdNPm4LNBA7RiJLDXIJZBk3YTc%3D%7CVmhIGCUFOBgkGiMXNwswCzALKxcpEikJMwg9HSEfJB8%2FBToPWQ8%3D%7CV29PHzEfP29VbFZ2SnBKdiAAPR0zHT0BOQI8A1UD%7CWGFBET8RMQszDy8QLxUuDjIJNQA1YzU%3D%7CWWBAED4QMAU%2BASEYLBksDDAEOgA1YzU%3D%7CWmJCEjwSMmJXb1d3T3JMc1NmWGJAeFhmW2JCfEZmWGw6GicHKQcnGCUdIBpMGg%3D%3D%7CW2JfYkJ%2FX2BAfEV5WWdfZUV8XGBUdEBgVXVJciQ%3D&isg=82B6A3A1ED52A6996BCA2111C9DAAEE6&_ksTS=1440490222698_2142&callback=jsonp21
content=requests.get(url).content
print(content)

返回的不是用浏览器看到的样子,而是一个登录的连接,我用浏览器模拟反问就是超时,请问这是什么问题

6个回答

你应该是没有模拟请求时在请求头中添加cookie和host、refer等

qq_38953503
梦想就是钱多事少离家近 回复xjtu-lining: 我的原因是请求的地址找错了,微博是jquery加载出来的
一年多之前 回复
qq_38953503
梦想就是钱多事少离家近 回复我是大潘呀: 出验证码,就得模拟人工就拖动验证码了,哈哈太难我就没搞
一年多之前 回复
qq_38953503
梦想就是钱多事少离家近 回复lyhsdy: 知道原因了,看我帖子吧,分享出来了
一年多之前 回复
weixin_39416561
lyhsdy 有人找到方法了吗
一年多之前 回复
weixin_44583265
xjtu-lining 回复我是大潘呀: 你可以尝试随机化请求时间间隔,或者请求一些后,假装请求其他资源,尽量绕开系统的人机识别。
一年多之前 回复
weixin_41822224
写Bug 的大潘 回复xjtu-lining: 这种方法貌似不行,我这边用扫码登录后拿到的cookie 去请求 十几条后还是会被识别,返回的是一个滑动验证码的页面
一年多之前 回复
weixin_39416561
lyhsdy 回复梦想就是钱多事少离家近: 找到方法,分享下
一年多之前 回复
weixin_44583265
xjtu-lining 回复梦想就是钱多事少离家近: 如果要完全自动化实现,你得先模拟登陆,请求一下登陆页面,提交登陆信息,获得一个具有登陆状态的cookie,然后的每次请求都带着这个cookie来爬取就行。一旦cookie过期,就重新登陆。建议你使用postman先模拟
一年多之前 回复
qq_38953503
梦想就是钱多事少离家近 昨天坐车的时候想到可能应该调用cookie,添加host了。今天我会调查尝试一下如何调用cookie
一年多之前 回复

那你设置下outtime

添加cookie就好了

你加了cookie那不就是要抓一段时间就要更换cookie了?

怎么我的url一直返回的是淘宝首页啊

加头文件,我也是这情况,然后每请求一次time.sleep(2.3+random)来模仿人类行为。

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问