Python中scrapy.FormRequest老是返回400错误响应

问题遇到的现象和发生背景

最近在学习爬虫的时候，利用scrapy框架编程，做一个笔趣阁小说爬取文件的时候，由于需要带参数请求所以重新定义了首次请求方法，可以无论怎么测试，返回的都是400错误，如果header标头不加'Content-Length'的话，能正常链接但是返回的是错误页面
而原先没用scrapy框架自己用requests.post同样的地址、标头内容以及data却可以得到正确的内容

用代码块功能插入代码，请勿粘贴截图

这是scrapy.FormRequest方法的代码，但是运行了会报400错误

def start_requests(self):   #默认对start_urls列表里的每一条url发起get请求，如果想发起post请求，必须重写父类的start_requests方法
        search_name=input('请输入希望搜索小说的关键字：')
        search_name1=quote(search_name,'utf-8')
        data={'m':'search','key':search_name}
        start_uls=['http://www.biqugse.com/case.php']
        global header
        header = {  'Cookie':'obj=1; 796ab53acf966fbacf8f078ecd10a9ce=a%3A1%3A%7Bi%3A552%3Bs%3A29%3A%2234369962%7C%2A%7C%E7%BB%88%E7%AB%A0%E3%80%81%E6%96%B0%E4%B8%96%E7%95%8C%22%3B%7D; PHPSESSID=ibjjb23leokjq11k2f24q4rqv7; ac30dd80c4d7d9d53b73bdd8bb9aaf43=1; Hm_lvt_7a41ef5a4df2b47849f9945ac428a3df=1663060001,1663069368,1663115792,1663392512; Hm_lpvt_7a41ef5a4df2b47849f9945ac428a3df=1663404614',
                    'Content-Length': '31',
                    #'Transfer-Encoding':'chunked',
                    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36' }
       
        for url in start_uls:
           
            yield scrapy.FormRequest(url=url, headers=header,formdata=data,callback=self.parse)

这是原先requests.post方法，可以正常返回网页信息

def search_notes(): #搜索小说名字，并将搜索结果打印出来
    name = input('请输入小说名字：')
    url = 'http://www.biqugse.com/case.php'
    header = {
'Content-Length': '31',
'Cookie': 'obj=1; 796ab53acf966fbacf8f078ecd10a9ce=a%3A1%3A%7Bi%3A552%3Bs%3A29%3A%2234369962%7C%2A%7C%E7%BB%88%E7%AB%A0%E3%80%81%E6%96%B0%E4%B8%96%E7%95%8C%22%3B%7D; PHPSESSID=ibjjb23leokjq11k2f24q4rqv7; ac30dd80c4d7d9d53b73bdd8bb9aaf43=1; Hm_lvt_7a41ef5a4df2b47849f9945ac428a3df=1663060001,1663069368,1663115792,1663392512; Hm_lpvt_7a41ef5a4df2b47849f9945ac428a3df=1663404614',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Safari/537.36' }
    data={'m':'search','key':name}
    req = requests.post(url,headers = header,data=data)

运行结果及报错内容

未注释掉Content-Length的信息
2022-09-17 21:15:41 [scrapy.core.engine] DEBUG: Crawled (400) <POST http://www.biqugse.com/case.php> (referer: None)
2022-09-17 21:15:41 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <400 http://www.biqugse.com/case.php>: HTTP status code is not handled or not allowed
2022-09-17 21:15:41 [scrapy.core.engine] INFO: Closing spider (finished)
2022-09-17 21:15:41 [scrapy.core.engine] ERROR: Scraper close failure
Traceback (most recent call last):
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python38\lib\site-packages\twisted\internet\defer.py", line 891, in _runCallbacks
current.result = callback( # type: ignore[misc]
File "E:\learncode\code\daima\biqu\biqu\pipelines.py", line 29, in close_spider
jar_url=os.path.join(r'E:\learncode\code\daima\biqu',file_name)
NameError: name 'file_name' is not defined
2022-09-17 21:15:41 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 401,
'downloader/request_count': 1,
'downloader/request_method_count/POST': 1,
'downloader/response_bytes': 296,
'downloader/response_count': 1,
'downloader/response_status_count/400': 1,
'elapsed_time_seconds': 3.882993,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2022, 9, 17, 13, 15, 41, 331610),
'httperror/response_ignored_count': 1,
'httperror/response_ignored_status_count/400': 1,
'log_count/DEBUG': 2,
'log_count/ERROR': 1,
'log_count/INFO': 11,
'response_received_count': 1,
'scheduler/dequeued': 1,
'scheduler/dequeued/memory': 1,
'scheduler/enqueued': 1,
'scheduler/enqueued/memory': 1,
'start_time': datetime.datetime(2022, 9, 17, 13, 15, 37, 448617)}
2022-09-17 21:15:41 [scrapy.core.engine] INFO: Spider closed (finished)
注释掉Content-Length返回的网页

<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<meta name="MobileOptimized" content="240"/>
<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0"/>
<meta http-equiv="Cache-Control" content="max-age=0"/>
<meta http-equiv="Cache-Control" content="no-transform "/>
<style type="text/css">
body{font-size:13px;}
</style>
</head>
<body>
<script type="text/javascript">
  var sec = 2;
  var t = setInterval(function(){
    sec = sec - 1;    
    if(sec < 1){
        clearInterval(t);
        return;
    }
    document.getElementById('seconds').innerHTML = sec;
  },1000);
  setTimeout(function(){
    window.location.href = "";
  },2000);
</script>
<div style="padding-top:10px;text-align:left;line-height:25px;">
    <table align="center" width="300" bgcolor="#3399ff" cellpadding="1" cellspacing="1">
        <tr bgcolor="#e1f0fd"><td width="95" align="center">提示信息：</td><td><strong style="color:red;">请刷新后，重新搜索！</strong></td></tr>
                <tr bgcolor="#e1f0fd"><td align="center">自动跳转：</td><td><span id="seconds">2</span>秒后自动跳转！</td></tr>
                <tr bgcolor="#e1f0fd"><td colspan="2" align="center"><a href="">立即跳转</a></td>
    </table>
</div>
</body>
</html>

我的解答思路和尝试过的方法

尝试过用scrapy.Requests方法，将body=json.dumps(data)，也试过将cookies从标头中拿出来单独赋值并转换成字典结构，结果始终都是400，而将Content-Length注释掉的话，得到的都是400响应

展开全部

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2022-09-17 15:21
关注
你可以参考下这篇文章：scrapy框架中的Request()、FormRequest()、FormRequest.from_response()的小结
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

编辑

预览

报告相同问题？

关注问题

SCRAPY运行报错， [scrapy.core.engine] INFO: Spider closed (finished)！ python
2021-07-26 07:56

回答 2 已采纳这个就是正常爬完了的日志信息吧，没啥问题啊
【scrapy爬虫问题】scrapy.xpath解析返回的结果有问题，求解答！！！ python
2020-07-13 11:48

回答 1 已采纳先打印response看看和你在网页上看到的一样吗？？
scrapy中请求携带json与request有什么区别？【赏】 python
2020-12-15 03:12

回答 4 已采纳兄弟，半个小时的辛苦 class CeshiSpider(scrapy.Spider): name = 'ceshi' api_headers = { 'Host'
爬虫攻守道 - 2023最新 - JS逆向 - Python Scrapy实现 - 爬取某天气网站历史数据
2023-01-10 09:18

biaobro的博客爬虫与反爬虫 - 2023最新爬取某天气网站历史数据 - JS逆向 - Python实现
python爬虫scrapy python 有问必答
2021-07-22 02:03

回答 2 已采纳看下数据是否是动态加载的，多抓几次包，分析下；可能需要通过添加page参数，进行爬取！
怎么解决Python中scrapy导入出错的问题？ pycharm python
2021-07-14 14:31

回答 1 已采纳看提示是说没有 crawl 命令，要解决这个问题，需要确保2点： 1.把爬虫.py复制到spiders文件夹里如执行scrapy crawl demo ,spiders里面就要有demo.py文件
在 python scrapy爬虫框架：response.xpath（）的返回值是[ ],这个怎么解决？ python
2020-07-03 03:16

回答 4 已采纳考虑网页的内容使用了ajax，使用右键-》查看网页源代码，看是否仍然能获得指定的内容
用scrapy爬取站长素材无法下载图片 python 爬虫
2021-08-03 10:51

回答 2 已采纳找到原因了，是要在setting中加上MEDIA_ALLOW_REDIRECTS = True，貌似是中间件的内容，我还没学到，所以不清楚什么意思，有大佬可以解释一下吗看所有日志后会发现其实有地方报错
用scrapy.Request怎么抓取JS动态页面 python
2022-01-03 02:32

回答 1 已采纳 self.xidian_next_page确定有值吗
爬虫scrapy框架爬不出来，但是request可以出来 http python 爬虫
2022-05-05 16:26

回答 2 已采纳你应该继承 scrapy.SpiderCrawlSpider 不要自定义 parse 函数。
Scrapy0.24.1_中文文档
2018-08-27 15:58

基础决定反应速度的博客 Scrapy 0.25 文档本文档涵盖了所有Scrapy的内容。获得帮助遇到问题了？我们来帮您！查看下 FAQ ，这里有些常见的问题的解决办法。寻找详细的信息？试试索引或者模块索引。您可以在 scrapy-users的...
Python面试题
2019-03-29 01:18

佐——伊的博客一、Python基础在Django2.0之前外键不需要只需要models.ForeignKey(‘外键关联’)就可以实现了但是在Django发布2.0之后，需要在这个方法里添加另外一个参数 on_delete=models.CASCADE，否则会报错误 1、一行...
python面试题整理
2019-09-21 10:13

晴天、、的博客一、Python基础在Django2.0之前外键不需要只需要models.ForeignKey(‘外键关联’)就可以实现了但是在Django发布2.0之后，需要在这个方法里添加另外一个参数 on_delete=models.CASCADE，否则会报错误 1、一行代码...
python web 笔记
2018-02-26 06:58

氵彡哥的博客当往容器中放类时需要使能够执行深拷贝，提供一个无参数的构造函数，和拷贝构造函数，和等号运数符的重载，深拷贝和浅拷贝的区别主要是当编译器释放指针指向内存时同一块内粗会释放两次，2.STL算法入门要明确知道每...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月17日

悬赏问题

¥15 全志t113i启动qt应用程序提示internal error
¥15 ensp可以看看嘛.
¥80 51单片机C语言代码解决单片机为AT89C52是清翔单片机
¥60 优博讯DT50高通安卓11系统刷完机自动进去fastboot模式
¥15 minist数字识别
¥15 在安装gym库的pygame时遇到问题，不知道如何解决
¥20 uniapp中的webview 使用的是本地的vue页面，在模拟器上显示无法打开
¥15 网上下载的3DMAX模型，不显示贴图怎么办
¥15 关于#stm32#的问题：寻找一块开发版，作为智能化割草机的控制模块和树莓派主板相连，要求：最低可控制 3 个电机（两个驱动电机，1 个割草电机），其次可以与树莓派主板相连电机照片如下：
¥15 潜在扩散模型的Unet特征提取