python爬取网站被识别如何解决

爬取一个医药电商网站，爬取几页后，就不能获取到数据，后面发现只要把参数里的token手动更新一下，就又可以继续爬取，但过段时间又不能获取了，重复往返，很是烦人

代码缩减如下，异步获取第100类，供应商编号为2447，页码为1的商品数据

url = 'https://dian.ysbang.cn/wholesale-drug/sales/getWholesaleList/v4270'
ysb_cookies = {"__guid": "140493094.3233647003393036000.1603696496870.0378", "Token": "a8e89ec3b1174c72ada65a5ca1b63470"}
headers =  { "User-Agent": "Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/86.0.4240.198Safari/537.36"}
param = {'classify_id': 100, 'pagesize': '60', 'page': 1, 'provider_id': 2447, 'token': 'a8e89ec3b1174c72ada65a5ca1b63470'}
res = requests.post(url, headers=headers, cookies=ysb_cookies, data=json.dumps(param), timeout=10)
res.raise_for_status()
res.encoding = res.apparent_encoding
root_data = res.json()['data']
raw_datas = root_data['wholesales']

关于自动获取token，本人通过requests自动登录来获取cookies试过了，提示要手机短信验证码

所以如何能够自动获取token，或者能够得到找到计算token的逻辑，或者绕过token来获取数据呢

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
家铭didphp 2021-05-29 09:10
关注
结合 selenium 库来操作。selenium 取到的 cookie 保存成文件，然后你这边 requests 请求的时候，去这个文件里读取最新的 token 值。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

python爬取淘宝商品价格
2023-07-26 13:21

Python爬取淘宝商品价格的功能...使用合适的请求头信息，模拟浏览器行为，避免被网站防爬机制识别为爬虫。处理网页解析的异常情况，例如元素不存在、HTML结构变化等情况。控制爬取频率，避免对服务器造成过大的负载。
Python爬取小说网站的小说
2023-05-05 10:45

本教程将详细讲解如何使用Python来爬取小说网站上的小说内容。首先，我们需要了解网络爬虫的基本概念。网络爬虫是一种自动遍历互联网并下载网页的程序。在Python中，我们通常使用requests库来发送HTTP请求获取网页...
使用Python爬取1688店铺所有商品链接
2024-11-08 00:42

因此，在本文中，我们将使用 Python 对 1688 的店铺页面进行爬取，提取店铺的商品链接，并通过模拟请求、获取签名等技术手段实现这一功能。通过输入店铺的名称和链接，爬取并获取该店铺所有商品的链接，最终将链接...
基于python爬取验证码并识别
2018-06-07 15:44

自带requests方式爬取验证码，pillow做图像处理提高识别率，tesseract识别验证码。
python爬取携程网评论.zip
2021-11-10 15:49

总结起来，"python爬取携程网评论.zip"项目涵盖了Python网络爬虫的基本流程：发送HTTP请求获取网页，解析HTML提取所需信息，处理分页，数据清洗与存储。这个过程既锻炼了Python编程技能，也提升了数据分析的能力，是...
python爬取搜狗图片，用于物体识别和样本训练
2020-03-01 15:54

python爬取搜狗图片，用于物体识别和样本训练自定义函数def getBaiduImag(category,length,path)，用于采集搜狗图片，三个参数分别为搜索的“关键词”category，采集的图片数量length，保存图片的路径path。...
使用python爬取网站上的姓名
2023-01-16 13:35

基于python进行爬取，可以批量获取姓名数据，可用于数据集制作，文字识别数据集的数据源，
python爬取网易云音乐评论
2024-04-01 20:51

本项目专注于使用Python爬取网易云音乐的评论信息，这涉及到网络请求、解析HTML或JSON数据、模拟登录等多方面知识。以下是对这些知识点的详细解释： 1. **requests库**：Python中的requests库是进行HTTP请求的主要...
python爬取动态拉勾网.zip
2020-08-04 20:10

本项目"python爬取动态拉勾网.zip"旨在教你如何使用Python来抓取动态加载的拉勾网上的工作岗位信息，并对其进行可视化分析。拉勾网是中国知名的互联网招聘平台，其网页内容通常采用Ajax动态加载技术，这为爬取数据...
Python爬取数据并实现可视化代码解析
2020-09-16 10:09

首先，定义一个headers字典，模拟浏览器发送请求时的头部信息，以避免被网站识别为机器人。然后，构造URL，结合productId（商品ID）和page（页码）动态生成评论页面的请求地址。通过requests.get()函数发送请求，并...
没有解决我的问题, 去提问

python爬取网站被识别如何解决

3条回答 默认 最新

3条回答默认最新