羽中飞人 2021-05-28 19:50 采纳率: 54.5%
浏览 226
已采纳

python爬取网站被识别如何解决

爬取一个医药电商网站,爬取几页后,就不能获取到数据,后面发现只要把参数里的token手动更新一下,就又可以继续爬取,但过段时间又不能获取了,重复往返,很是烦人

代码缩减如下,异步获取第100类,供应商编号为2447,页码为1的商品数据

url = 'https://dian.ysbang.cn/wholesale-drug/sales/getWholesaleList/v4270'
ysb_cookies = {"__guid": "140493094.3233647003393036000.1603696496870.0378", "Token": "a8e89ec3b1174c72ada65a5ca1b63470"}
headers =  { "User-Agent": "Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/86.0.4240.198Safari/537.36"}
param = {'classify_id': 100, 'pagesize': '60', 'page': 1, 'provider_id': 2447, 'token': 'a8e89ec3b1174c72ada65a5ca1b63470'}
res = requests.post(url, headers=headers, cookies=ysb_cookies, data=json.dumps(param), timeout=10)
res.raise_for_status()
res.encoding = res.apparent_encoding
root_data = res.json()['data']
raw_datas = root_data['wholesales']


关于自动获取token,本人通过requests自动登录来获取cookies试过了,提示要手机短信验证码

所以如何能够自动获取token,或者能够得到找到计算token的逻辑,或者绕过token来获取数据呢

  • 写回答

3条回答

      报告相同问题?

      相关推荐 更多相似问题

      悬赏问题

      • ¥50 有没有大佬看一下关于思科的这道题怎么做
      • ¥30 求十字路口交通灯S7-200plc,今天早上八点前。
      • ¥20 如何用智能手表oppowatch3实现个人热点功能
      • ¥15 运营商打开wanpush会有怎么样的危害
      • ¥15 Java编程题,定义一个时钟
      • ¥15 Python面向对象编程——生成多项式的一阶导数
      • ¥15 在编写C++程序遇到了问题
      • ¥15 java程序查找字符串中所有的回文并输出
      • ¥15 怎么让只支持对.exe 和.dll文件进行加壳的加壳器,同时让它也支持php文件加壳呢
      • ¥15 这两个数学公式什么意思?