爬虫模拟登陆时discuz论坛拒绝访问

问题遇到的现象和发生背景

在使用python爬虫模拟登陆糖果vr网站时，出现了discuz!错误：您当前的访问请求当中含有非法字符，已经被系统拒绝。
（headers和data除了cookie以外已经尽量使用我自己访问的数据了）

用代码块功能插入代码，请勿粘贴截图

import requests
import ddddocr
import re
from lxml import etree

if __name__ == "__main__":
    session = requests.Session()
    url = 'https://www.tangguo2.com/member.php?mod=logging&action=login'
    loginUrl = 'https://www.tangguo2.com/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=LgS81&inajax=1'
    mainUrl = 'https://www.tangguo2.com/plugin.php?id=dsu_paulsign:sign'
    headers = {
        'User-Agent':此处本来为我的UA（保密一下）
    }
    mainResponce = requests.get(url, headers=headers).text
    # print(mainResponce)
    tree = etree.HTML(mainResponce)
    formHash = tree.xpath('/html/body/div[5]/div[1]/div/div[3]/div/form/input[2]/@value')[0]

    jpgUrl = tree.xpath('/html/body/div[7]/div/div[2]/div/div[2]/div[1]/div[1]/form/div/span/@id')[0]
    jpgName = re.findall('seccode_(.*)', jpgUrl)[0]
    headers1 = {
        'User-Agent':我的UA,
        'referer': 'https://www.tangguo2.com/member.php?mod=logging&action=login',
        'sec-fetch-dest': 'image',
        'sec-fetch-mode': 'no-cors',
        'sec-fetch-site': 'same-origin',
        'authority': 'www.tangguo2.com',
        'method': 'GET',
        'scheme': 'https',
        'accept': 'image/webp,image/apng,image/*,*/*;q = 0.8',
        'accept-encoding': 'gzip,deflate,br',
        'accept-language': 'zh-CN,zh;q=0.9',
    }
    jpgUrl = 'https://www.tangguo2.com/misc.php?mod=seccode&update=76180&idhash=' + jpgName
    jpgResponce = requests.get(jpgUrl, headers=headers1).content
    ocr = ddddocr.DdddOcr(old=True)
    with open('seccode.jpg', 'wb') as fp:
        fp.write(jpgResponce)
    image = jpgResponce
    image_result = ocr.classification(image)
    loginHeaders = {
        'authority': 'www.tangguo2.com',
        'method': 'POST',
        'path': '/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=LmzaO&inajax=1',
        'scheme':'https',
        'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'accept-encoding':'gzip,deflate,br',
        'accept-language':'zh-CN,zh;q=0.9',
        'cache-control': 'max-age=0',
        'content-length': '222',
        'content-type': 'application/x-www-form-urlencoded',
        'origin': 'https://www.tangguo2.com',
        'referer': 'https://www.tangguo2.com/member.php?mod=logging&action=login',
        'sec-fetch-dest': 'iframe',
        'sec-fetch-mode': 'navigate',
        'sec-fetch-site': 'same-origin',
        'sec-fetch-user': '?1',
        'upgrade-insecure-requests': '1',
        'User-Agent': 我的UA
    }
    data = {
        'formhash': formHash,
        'referer': 'https://www.tangguo2.com/forum.php',
        'loginfield': 'username',
        'username':原来为我的账户,
        'password':原来为我的密码,
        'questionid': '0',
        'answer':'',
        'seccodehash': jpgName,
        'seccodemodid': 'member::logging',
        'seccodeverify': image_result
    }

    loginResponce = session.post(loginUrl, headers=headers, data=data).text
    print(loginResponce)
    testXpath = '//*[@id="deanmembercontent"]/dl/dd[1]/a/text()'
    print(jpgName)
    print(image_result)

最后还有一些没写完，因为这个报错所以卡在这里了

运行结果及报错内容

验证码能够正确输出，账户和密码都是正确的。header和data也已经核对过了。
但是还是会出现错误：

Discuz! System Error

您当前的访问请求当中含有非法字符，已经被系统拒绝

我的解答思路和尝试过的方法

验证码获取用了带带弟弟ocr，数据聚焦用了xpath，并用了正则做了一下数据解析
尝试过的方法就是让header和data尽量和我自己的一样，但还是没有
好像是discuz的防护机制，不知道还有没有什么办法

我想要达到的结果

希望能找到解决这个的办法（不觉得爬虫连个论坛都不能模拟登陆）

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-showbo 2022-10-12 17:08
关注
所有请求都要使用session这个变量，而不是另外requests发送，要不不是同一个会话下的请求
requests.session()会话保持_Danker01的博客-CSDN博客_requests.session() 可能大家对session已经比较熟悉了，也大概了解了session的机制和原理，但是我们在做爬虫时如何会运用到session呢，就是接下来要讲到的会话保持。首先说一下，为什么要进行会话保持的操作？requests库的session会话对象可以跨请求保持某些参数，说白了，就是比如你使用session成功的登录了某个网站，则在再次使用该session对象求求该网站的其他网页都会默认使用该ses... https://blog.csdn.net/weixin_42575020/article/details/95179840

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

php通过curl模拟登陆DZ论坛
2020-10-24 06:26

本文将详细解读如何使用PHP语言配合libcurl库通过CURL函数模拟登陆DZ（Discuz!）论坛，并且进行数据的采集。首先，我们需要了解CURL是一个强大的库，它支持多种网络协议，包括但不限于HTTP、HTTPS、FTP等。在PHP中...
Python 模拟登录网页，或者编写爬虫时模拟登录的详细总结
2025-01-07 17:25

zhangfeng1133的博客模拟登录后可以保持登录状态，以便进行后续的爬取操作，如访问登录后的页面、获取用户数据等.- **更新和维护**：网站的登录机制和页面结构可能会发生变化，定期检查和更新爬虫代码，以适应网站的更新和变化，确保...
python爬取discuz_爬虫技术实践（二）Discuz! 按板块爬取帖子内容实战
2020-12-09 15:37

weixin_39992312的博客用户可以在不需要任何编程的基础上，通过简单的设置和安装，在互联网上搭建起具备完善功能、很强负载能力和可高度定制的论坛服务。Discuz! 的基础架构采用 PHP + MySQL 实现。1. 实战环境由 Ubuntu、Nginx、PHP、...
httpclient模拟登陆
2012-07-13 14:44

利用HTTPClient，我们可以轻松实现模拟登录的功能，即通过编程的方式向网站发送登录所需的参数，从而达到自动登录的目的。在给定的代码片段中，我们看到了一个名为`LoginDZ`的类，该类用于演示如何使用HTTPClient...
python语言实例-Python代码样例列表
2020-11-01 12:04

weixin_37988176的博客练手的Python Tcp协议小示例.py │ 自动登陆Discuz论坛的通用python代码源码片段.py │ 获取网页内容并入库的python方法.py │ 调试js解决跨域问题python小工具.py │ 通过GDP判断外交关系的练习代码学习和分享.py ...
第五阶段：shell编程企业实战，完整版
2021-04-15 14:19

泰裤啦！的博客第五阶段：shell编程企业实战第一章shell变量核心基础与进阶 1.1节、什么是shell 什么是shell Shell是一个命令解释器，它的作用是解释执行用户输入的命令及程序等，用户输入一条命令，shell就解释执行一条，这种从...
网络安全术语及Web渗透流程入门普及，零基础入门到精通，收藏这一篇就够了
2025-12-25 18:42

网安导师小李的博客脚本（asp、php、jsp）：编写网站的语言html（css、js、html）：超文本标记语言，解释给浏览器的静态编程语言HTTP/HTTPS协议：通讯标准，明文或密文CMS（B/S）：网站内容管理系统，常见的比如Discuz、DedeCMS、...
《Python网络安全项目实战》项目1 Python 环境安装
2024-10-26 15:31

空云风语的博客 2017年7月20日，IEEE发布2017年编程语言排行榜：Python高居首位。项目目标：  熟悉Windows下Python开发环境的安装；  熟悉Ubuntu下Python开发环境的安装。任务1.1 Windows上安装Python 任务描述公司接到一个...
[网络安全自学篇] 四十八.Cracer第八期——(1)安全术语、Web渗透流程、Windows基础、注册表及黑客常用DOS命令
2020-02-21 15:47

Eastmount的博客：超文本标记语言，解释给浏览器的静态编程语言 HTTP/HTTPS协议：通讯标准，明文或密文 CMS（B/S）：网站内容管理系统，常见的比如Discuz、DedeCMS、Wordpress等，针对CMS漏洞进行渗透测试 MD5 ：加密算法...
CSS，HTML，JS 以及Vue前端面试题八股文总结【看完你就变高手】
2023-01-30 21:08

蒙奇不想敲代码的博客伪类选择器主要应用在标签上，它由四种状态：未访问链接(link)、已访问链接(visited)、激活链接(active)、鼠标停留在连接上(hover)。留心，:befor（没有写错，就是比CSS3少一个e）是Css2的写法（兼容好），::...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家修改了标签 10月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月12日