关于#天猫反爬虫#的问题，如何解决？

天猫评论爬虫遭反爬


```python

    
def get_review(url,goodname,goodclass):
    time.sleep(random.uniform(10,20))
    contents = []
    headers = {
        'cookie':'已隐藏'
        ,'user-agent':r'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
        ,'referer':'https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-14595640457.298.7ebb17b1PfGDbX&id=623394554673&rn=9f66587e5923b5e737cbbc016de9b677&skuId=4577070898930'
        ,'accept':'*/*'
        ,'accept-encoding':'gzip, deflate, br'
        ,'accept-language':'zh-CN,zh;q=0.9'
    }

    response = rq.get(url,headers=headers).text
    # time.sleep(5)
    try:
        response = response.split(')')[0]
        response = response.split('(')[1]

        data = json.loads(response)

        

        for i in data['rateDetail']['rateList']:
            if i['appendComment'] != None:
                review = str(i['rateContent'])+'，'+str(i['appendComment']['content'])
                
            else:
                review = str(i['rateContent'])
            if i['appendComment'] != None:
                bt = str(i['appendComment']['commentTime']).split(' ')[0]
            else:
                bt = str(i['rateDate']).split(' ')[0]

            content = [review,bt,goodname,goodclass]
            contents.append(content)
        df = pd.DataFrame(data=contents,columns=['comment','time','good_name','good_type'])

        return df
    except:
        print('有点问题')


###### cookie用的是登录后的，爬取二十页左右开始报错， 主要问题是request.get得到的是

{"rgv587_flag": "sm", "url": "//rate.tmall.com:443/list_detail_rate.htm/_____tmd_____/punish?x5secdata=5e0c8e1365474455070961b803bd560607b52cabf5960afff39b64ce58073f78d67c783afbf2f1429bb88d22e9de8dc924fb9b529c904864bbfe3d3fb7f481ac654959777bb93a8a46736b198f52750ae0f0058c9e35ca1342909838a622e73d45cb0ce36cef9f62cbd52852a03cf8ba461ee819ca12264cfd380e1ff9a31817eb7bb56718d9045e71a36bf5c104a31381c5772d63b0f57d2db7904d218e4b5cb2119896354387522c4277060a306d8779a52a883b8d79c21b1904b01749f64fd67c783afbf2f1429bb88d22e9de8dc924fb9b529c904864bbfe3d3fb7f481ac654959777bb93a8a46736b198f52750aba054159bd12f4e49383632589de52415127ba80eadd57577355098f1203f81009490045313404a034c300f6f334c988cf8b3d6c14e48c2ab40794cc1e1a04bd43057e2edd1838e1ccc05f4f01cfb61713b9e53b3a344694df999179f2180f7b845ebbb7c256e077889b653f76774fc4c74ee8e9e999cde873522a2663ee17e879a23c364d635f7a361193b1d191cf8fed81c65bebf3b9df46dd6afed6f19989714844c0713ecd4e394877978ee6e9104491e6e26e712b31d9b7ccb1b645df8a5ff640b33682743330a508a275a3f26aab570034bcc3f82cda2fb36536ba0f78b251916ca16b3d87deb696c0814bb75c8a97df8bab9ed7ed243b3656c0b7e1004b356f289e0ac65f51f6426fd9a3e03b41ca3ac6eb5a5b9020a1340974a8361a&x5step=2"}

看网上教程是天猫滑块验证，但要用到selenium，有方法可以直接绕过滑块吗?
不行的话能不能在已有代码上实现滑块验证，实在不想用selenium再写一遍了

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
honestman_ 2022-08-16 11:45
关注
你这样去爬天猫肯定是要被反爬的，代理都不加上，如果数据量小，可以加上代理跑一跑，但是如果数据量比较大的话，你是绕不开滑块验证码的，而出不出现验证码是根据你的cookie来决定的，提供一个大批量跑的思路：

你自己的代码加上ip
利用selenium实现一个滑块验证码的脚本，划过之后保存新的cookie到 redis或者其他地方，维护一个cookie池子
爬虫脚本随机拿cookie池子中的cookie去请求，如果遇到验证码就更换cookie
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

关于#天猫反爬虫#的问题，如何解决？ python 爬虫
2022-08-15 18:55

回答 2 已采纳你这样去爬天猫肯定是要被反爬的，代理都不加上，如果数据量小，可以加上代理跑一跑，但是如果数据量比较大的话，你是绕不开滑块验证码的，而出不出现验证码是根据你的cookie来决定的，提供一个大批量跑的思路
关于#智能家居#的问题，如何解决？ python
2023-03-15 10:51

回答 3 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ要获取天猫精灵连接的设备的信息，需要通过接入天猫精灵开放平台获取授权，并使用平台提供的 API 来实现数据的获取。具体的实现过程如下：在天猫精灵开放平台上注册开发者账号
关于#python#的问题，请各位专家解答！ python
2022-12-26 17:38

回答 2 已采纳你是不明白bin() oct() hex()函数吗？bin() 十进制进制转换为二进制oct() 十进制转换为八进制hex() 十进制转换为16进制我看你逻辑已经写好了，在相应的分支补充一
Python应用：什么是爬虫？
2023-07-12 16:50

经年藏殊的博客什么是爬虫，以及爬虫的善恶分析，对爬虫君子协议的介绍
关于#python#的题目，请各位专家解答！ python
2021-09-12 14:56

回答 1 已采纳具体的需求是什么？
天猫聚石塔容器，三级域名获取问题容器服务器
2018-08-10 11:43

回答 1 已采纳 http://bbs.es86.com/aspx/topic.aspx?tid=13312
vue 仿淘宝商城购买天猫商品 vue.js 前端有问必答
2021-12-22 13:28

回答 2 已采纳应该是开放得接口。调用就行
Python扩展库安装与常见问题解决完整指南
2021-01-19 09:46

Python_小屋的博客 “Python小屋”编程比赛正式开始推荐图书：《Python程序设计（第3版）》，（ISBN：978-7-302-55083-9），董付国，清华大学出版社，2020年6月第1次印刷，20...
python 使用selector.xpath来爬取天猫数据，爬不了月销量 python
2018-12-13 09:43

回答 1 已采纳 ←如果以下回答对你有帮助，请点击右边的向上箭头及采纳下答案刚测试了一下，天猫有浏览器内核检测机制，能检测到你使用的是selenium，大部分数据不正常加载（不用无头模式可以看到），且频繁显
请问淘宝天猫的分类界面是怎么实现的呢？
2016-09-12 06:42

回答 1 已采纳这块的分类界面应该没有开源的吧，框架肯定都是通用的才能作为框架来设计，这个分类有自己的特性，得自己写吧
爬虫：无法获取到sessionID python 有问必答
2022-05-20 12:09

回答 2 已采纳如果登陆了，会缓存在浏览器端。每次请求接口时会携带这个sessionId，包含在cookies中。
一文带你了解爬虫
2019-06-25 08:42

猪哥66的博客前段时间我妈突然问我：儿子，爬虫是什么？我当时既惊讶又为难，惊讶的是为什么我妈会对爬虫好奇？为难的是我该怎么给她解释呢？老板：小明给你个重要任务。小明：就算996我也在所不辞（第一次接到老板的直接需求...
淘宝开放平台API获取淘宝天猫店铺订单接口 mysql php 有问必答
2021-05-09 13:39

回答 3 已采纳点击链接注册获取key和secret,http://console.open.onebound.cn/console/?i=Andy或详细见文章解析https://blog.csdn.net/weix
一篇文章带你理解爬虫究竟是什么？
2021-01-10 21:52

Vax_Loves_1314的博客三、遇到的问题和解决方案四、最后做下总结爬虫管理平台总结前言作为冷数据启动和丰富数据的重要工具，爬虫在业务发展中承担着重要的作用，我们业务在发展过程中积累了不少爬虫使用的经验，在此分享给大家...
全网最全python爬虫＋数据分析资源整理
2021-04-29 18:50

yk 坤帝的博客数据和算法思维这不仅是在技术上的思维模式，更是我们平时看待问题解决问题的思维方式。如果你将数据视为财富，将数据分析视为获得财富的工具，那么在大数据时代，你将获得更宽广的视野。 2. 工具用好工具，你将...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月25日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月15日

悬赏问题

¥170 如图所示配置eNSP
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改
¥20 wireshark抓不到vlan
¥20 关于#stm32#的问题：需要指导自动酸碱滴定仪的原理图程序代码及仿真
¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
¥15 stata安慰剂检验作图但是真实值不出现在图上
¥15 c程序不知道为什么得不到结果
¥15 键盘指令混乱情况下的启动盘系统重装

关于#天猫反爬虫#的问题，如何解决？

天猫评论爬虫遭反爬

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新