python爬取网站被识别如何解决

爬取一个医药电商网站，爬取几页后，就不能获取到数据，后面发现只要把参数里的token手动更新一下，就又可以继续爬取，但过段时间又不能获取了，重复往返，很是烦人

代码缩减如下，异步获取第100类，供应商编号为2447，页码为1的商品数据

url = 'https://dian.ysbang.cn/wholesale-drug/sales/getWholesaleList/v4270'
ysb_cookies = {"__guid": "140493094.3233647003393036000.1603696496870.0378", "Token": "a8e89ec3b1174c72ada65a5ca1b63470"}
headers =  { "User-Agent": "Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/86.0.4240.198Safari/537.36"}
param = {'classify_id': 100, 'pagesize': '60', 'page': 1, 'provider_id': 2447, 'token': 'a8e89ec3b1174c72ada65a5ca1b63470'}
res = requests.post(url, headers=headers, cookies=ysb_cookies, data=json.dumps(param), timeout=10)
res.raise_for_status()
res.encoding = res.apparent_encoding
root_data = res.json()['data']
raw_datas = root_data['wholesales']

关于自动获取token，本人通过requests自动登录来获取cookies试过了，提示要手机短信验证码

所以如何能够自动获取token，或者能够得到找到计算token的逻辑，或者绕过token来获取数据呢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
家铭didphp 2021-05-29 09:10
关注
结合 selenium 库来操作。selenium 取到的 cookie 保存成文件，然后你这边 requests 请求的时候，去这个文件里读取最新的 token 值。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

python爬取网站被识别如何解决 python
2021-05-28 19:50

回答 3 已采纳结合 selenium 库来操作。selenium 取到的 cookie 保存成文件，然后你这边 requests 请求的时候，去这个文件里读取最新的 token 值。
python使用xpath爬取网络数据报表结果为空 python 开发语言有问必答
2021-10-23 17:12

回答 3 已采纳该页面数据在XHR中找，构建一下headers和params，使用如下方式获json数据，然后从中解析即可： response = requests.get('https://fr.oppein.co
如何实现Python识别处理企业微信pc版消息 python
2022-05-23 21:25

回答 3 已采纳接受信息 @app.route('/blackcat/v1/receive_task', methods=['POST', 'GET']) def receive(): try:
基于python爬取验证码并识别
2018-06-07 15:44

自带requests方式爬取验证码，pillow做图像处理提高识别率，tesseract识别验证码。
python实体抽取相关问题 python 自然语言处理
2019-12-08 13:51

回答 1 已采纳 https://blog.csdn.net/qq_40136685/article/details/90634006
在命令行里使用python requests.get命令没有事，写成python程序就被识别成机器人了为什么？ python 有问必答
2021-07-24 10:18

回答 2 已采纳需要添加Accept和Referer内容到headers,写成如下试试：kv2 = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW6
python爬虫网页标签个别无法读取 python 开发语言有问必答爬虫
2022-04-05 22:09

回答 3 已采纳因为个别标签字典中没有bond_nm和bond_nm_tip键 data2 = data_get['bond_nm'] data5 = data_get['bond_nm_tip']
使用python爬取网站上的姓名
2023-01-16 13:35

基于python进行爬取，可以批量获取姓名数据，可用于数据集制作，文字识别数据集的数据源，
关于Python version 3.5 does not support a 'F' prefix的问题！ python
2022-04-11 22:27

回答 1 已采纳那就换种写法 # 1 with open('img/' + str(img_name), 'wb') as f: f.write(img_data) # 2 with open('img/{}
爬取网站的title名称名字,为什么遍历打印不出来.是加密了吗?求问 python
2021-05-07 04:50

回答 1 已采纳我运行了你的代码，并没有打印不出来的问题，只是打印出来的是乱码，在获取到响应后更改字符编码为 utf-8即可正常显示。 ... # 发送请求获取响应 res = requests.get(url=
python 怎么自动识别提取招标文件中的供应商的名称（可能为公司，报社，学校，医院等）？ python
2020-10-12 11:23

回答 1 已采纳一定格式的，可以用正则表达式。但是没有格式的，这个只能用语义分析，并且不能做到100%准确。
python爬取淘宝商品价格
2023-07-26 13:21

Python爬取淘宝商品价格的功能...使用合适的请求头信息，模拟浏览器行为，避免被网站防爬机制识别为爬虫。处理网页解析的异常情况，例如元素不存在、HTML结构变化等情况。控制爬取频率，避免对服务器造成过大的负载。
Python爬虫只解析了一部分网页？ python 爬虫
2021-11-19 14:39

回答 1 已采纳第一个问题，你用html.xpath('//div[@class="co_content8"]/ul/table')找不到，是因为在table那一类，有很多分支标签，所以定位不到具体的元素。第二个问题
python爬取搜狗图片，用于物体识别和样本训练
2020-03-01 15:54

python爬取搜狗图片，用于物体识别和样本训练自定义函数def getBaiduImag(category,length,path)，用于采集搜狗图片，三个参数分别为搜索的“关键词”category，采集的图片数量length，保存图片的路径path。...
没有解决我的问题, 去提问

悬赏问题

¥15 对于squad数据集的基于bert模型的微调
¥15 为什么我运行这个网络会出现以下报错？CRNN神经网络
¥20 steam下载游戏占用内存
¥15 CST保存项目时失败
¥15 树莓派5怎么用camera module 3啊
¥20 java在应用程序里获取不到扬声器设备
¥15 echarts动画效果的问题，请帮我添加一个动画。不要机器人回答。
¥15 Attention is all you need 的代码运行
¥15 一个服务器已经有一个系统了如果用usb再装一个系统，原来的系统会被覆盖掉吗
¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时，终端显示出了sequence handled的进度条，但是并不出结果就自动终止回到命令提示行了是怎么回事：

python爬取网站被识别如何解决

3条回答 默认 最新

悬赏问题

3条回答默认最新