爬虫模拟登陆时discuz论坛拒绝访问

问题遇到的现象和发生背景

在使用python爬虫模拟登陆糖果vr网站时，出现了discuz!错误：您当前的访问请求当中含有非法字符，已经被系统拒绝。
（headers和data除了cookie以外已经尽量使用我自己访问的数据了）

用代码块功能插入代码，请勿粘贴截图

import requests
import ddddocr
import re
from lxml import etree

if __name__ == "__main__":
    session = requests.Session()
    url = 'https://www.tangguo2.com/member.php?mod=logging&action=login'
    loginUrl = 'https://www.tangguo2.com/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=LgS81&inajax=1'
    mainUrl = 'https://www.tangguo2.com/plugin.php?id=dsu_paulsign:sign'
    headers = {
        'User-Agent':此处本来为我的UA（保密一下）
    }
    mainResponce = requests.get(url, headers=headers).text
    # print(mainResponce)
    tree = etree.HTML(mainResponce)
    formHash = tree.xpath('/html/body/div[5]/div[1]/div/div[3]/div/form/input[2]/@value')[0]

    jpgUrl = tree.xpath('/html/body/div[7]/div/div[2]/div/div[2]/div[1]/div[1]/form/div/span/@id')[0]
    jpgName = re.findall('seccode_(.*)', jpgUrl)[0]
    headers1 = {
        'User-Agent':我的UA,
        'referer': 'https://www.tangguo2.com/member.php?mod=logging&action=login',
        'sec-fetch-dest': 'image',
        'sec-fetch-mode': 'no-cors',
        'sec-fetch-site': 'same-origin',
        'authority': 'www.tangguo2.com',
        'method': 'GET',
        'scheme': 'https',
        'accept': 'image/webp,image/apng,image/*,*/*;q = 0.8',
        'accept-encoding': 'gzip,deflate,br',
        'accept-language': 'zh-CN,zh;q=0.9',
    }
    jpgUrl = 'https://www.tangguo2.com/misc.php?mod=seccode&update=76180&idhash=' + jpgName
    jpgResponce = requests.get(jpgUrl, headers=headers1).content
    ocr = ddddocr.DdddOcr(old=True)
    with open('seccode.jpg', 'wb') as fp:
        fp.write(jpgResponce)
    image = jpgResponce
    image_result = ocr.classification(image)
    loginHeaders = {
        'authority': 'www.tangguo2.com',
        'method': 'POST',
        'path': '/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=LmzaO&inajax=1',
        'scheme':'https',
        'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'accept-encoding':'gzip,deflate,br',
        'accept-language':'zh-CN,zh;q=0.9',
        'cache-control': 'max-age=0',
        'content-length': '222',
        'content-type': 'application/x-www-form-urlencoded',
        'origin': 'https://www.tangguo2.com',
        'referer': 'https://www.tangguo2.com/member.php?mod=logging&action=login',
        'sec-fetch-dest': 'iframe',
        'sec-fetch-mode': 'navigate',
        'sec-fetch-site': 'same-origin',
        'sec-fetch-user': '?1',
        'upgrade-insecure-requests': '1',
        'User-Agent': 我的UA
    }
    data = {
        'formhash': formHash,
        'referer': 'https://www.tangguo2.com/forum.php',
        'loginfield': 'username',
        'username':原来为我的账户,
        'password':原来为我的密码,
        'questionid': '0',
        'answer':'',
        'seccodehash': jpgName,
        'seccodemodid': 'member::logging',
        'seccodeverify': image_result
    }

    loginResponce = session.post(loginUrl, headers=headers, data=data).text
    print(loginResponce)
    testXpath = '//*[@id="deanmembercontent"]/dl/dd[1]/a/text()'
    print(jpgName)
    print(image_result)

最后还有一些没写完，因为这个报错所以卡在这里了

运行结果及报错内容

验证码能够正确输出，账户和密码都是正确的。header和data也已经核对过了。
但是还是会出现错误：

Discuz! System Error

您当前的访问请求当中含有非法字符，已经被系统拒绝

我的解答思路和尝试过的方法

验证码获取用了带带弟弟ocr，数据聚焦用了xpath，并用了正则做了一下数据解析
尝试过的方法就是让header和data尽量和我自己的一样，但还是没有
好像是discuz的防护机制，不知道还有没有什么办法

我想要达到的结果

希望能找到解决这个的办法（不觉得爬虫连个论坛都不能模拟登陆）

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-showbo 2022-10-12 17:08
关注
所有请求都要使用session这个变量，而不是另外requests发送，要不不是同一个会话下的请求
requests.session()会话保持_Danker01的博客-CSDN博客_requests.session() 可能大家对session已经比较熟悉了，也大概了解了session的机制和原理，但是我们在做爬虫时如何会运用到session呢，就是接下来要讲到的会话保持。首先说一下，为什么要进行会话保持的操作？requests库的session会话对象可以跨请求保持某些参数，说白了，就是比如你使用session成功的登录了某个网站，则在再次使用该session对象求求该网站的其他网页都会默认使用该ses... https://blog.csdn.net/weixin_42575020/article/details/95179840

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

爬虫模拟登陆时discuz论坛拒绝访问 python 开发语言有问必答
2022-10-12 16:21

回答 2 已采纳所有请求都要使用session这个变量，而不是另外requests发送，要不不是同一个会话下的请求 requests.session()会话保持_Danker01的博客-
爬虫模拟登陆参数解密爬虫
2021-12-01 15:01

回答 1 已采纳你应该拿密码去各个加密的那里试试看有没有相同的.不然的话.只有一步一步逆向
java爬虫模拟登陆失败, 求大神帮忙看看 java 爬虫
2017-09-15 01:13

回答 7 已采纳首次登陆的时候不用set cookie 你登录之后获取的页面跟你输入的url有关你想访问你想访问的页面可以再调用GET方法
python爬取discuz_爬虫技术实践（二）Discuz! 按板块爬取帖子内容实战
2020-12-09 15:37

weixin_39992312的博客用户可以在不需要任何编程的基础上，通过简单的设置和安装，在互联网上搭建起具备完善功能、很强负载能力和可高度定制的论坛服务。Discuz! 的基础架构采用 PHP + MySQL 实现。1. 实战环境由 Ubuntu、Nginx、PHP、...
爬虫循环多次被拒绝突然可以访问 python
2022-05-03 22:12

回答 3 已采纳是不是请求太频繁了，大部分网站都有频率限制的
Python爬虫在论坛查询数据 python 开发语言有问必答爬虫
2022-11-10 10:27

回答 2 已采纳查询出来的都是我大号的金币数量根据这个提示cookie没有更新，发送查询请求时仍然是大号的cookie身份信息
python语言实例-Python代码样例列表
2020-11-01 12:04

weixin_37988176的博客练手的Python Tcp协议小示例.py │ 自动登陆Discuz论坛的通用python代码源码片段.py │ 获取网页内容并入库的python方法.py │ 调试js解决跨域问题python小工具.py │ 通过GDP判断外交关系的练习代码学习和分享.py ...
Python爬虫，爬虫访问网站时遇到415. UnsupportedMediaType错误，运行结果为空 python 爬虫
2022-08-22 11:35

回答 3 已采纳
selenium爬虫爬取网页信息时出现用户登陆怎么解决？ python 有问必答
2022-08-25 16:21

回答 5 已采纳 emmm，你可以先打开浏览器进行登录，再让selenium接管浏览器：https://blog.csdn.net/qq254271304/article/details/103493969或者你再程序
Python 爬虫通过模拟点击的模拟登陆，是否可以隐藏弹出的浏览器？ python
2020-09-17 11:15

回答 3 已采纳基于楼上的回答扩展一下，比如类库urllib。你关心的应该是点击操作发起的请求模拟，这个东西走开发者工具看NetWork页签，将具体请求部分找出，再用urllib自带的方法模拟请求即可。模板是
第五阶段：shell编程企业实战，完整版
2021-04-15 14:19

泰裤啦！的博客第五阶段：shell编程企业实战第一章shell变量核心基础与进阶 1.1节、什么是shell 什么是shell Shell是一个命令解释器，它的作用是解释执行用户输入的命令及程序等，用户输入一条命令，shell就解释执行一条，这种从...
python3.10爬虫爬图片，显示访问超时 python 爬虫
2021-12-26 23:32

回答 1 已采纳 1.请求头里面换user-agent2.使用动态ip这个是我都爬虫专栏，我会不定期更新https://blog.csdn.net/qq_62932195/category_11495999.html?
[网络安全自学篇] 四十八.Cracer第八期——(1)安全术语、Web渗透流程、Windows基础、注册表及黑客常用DOS命令
2020-02-21 15:47

Eastmount的博客：超文本标记语言，解释给浏览器的静态编程语言 HTTP/HTTPS协议：通讯标准，明文或密文 CMS（B/S）：网站内容管理系统，常见的比如Discuz、DedeCMS、Wordpress等，针对CMS漏洞进行渗透测试 MD5 ：加密算法...
用python爬虫抓站的一些技巧总结
2015-08-02 22:05

喵喵d喵喵的博客阅读目录 3.1 cookie的处理 3.2 表单的处理 3.3 伪装成浏览器访问 3.4 反”反盗链” 3.5 终极绝招 1、用twisted进行异步I...5、登陆 ...学用python也有3个多月了，用得最多的还是各类爬虫脚本：写过抓代理本机验证
没有解决我的问题, 去提问