scrapy 请求chrome控制台抓取到的请求地址，但是报404，地址直接在浏览器输入也是报404

chrome控制台看到的请求地址

请求头如下

编写的spider如下：


from kemai.items import KemaiItem2
import  logging
from kemai.items import a
from scrapy.downloadermiddlewares.cookies import CookiesMiddleware
class KemaispiderSpider(scrapy.Spider):
    
    name = 'kemaispideryibao'
    allowed_domains = ["10.118.130.127:8001"]
    #start_urls = [constant.getHostUrl()]
    #pagestart=0
    hosturl="http://10.118.130.127:8001/"
    headers = {
        'Content-Type': 'application/x-www-form-urlencoded;charset=UTF-8',
        'Host': '10.118.130.127:8001',
        'Referer':'http://10.118.130.127:8001/dip/logonDipsMonitor.jsp',
        'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36',
        'Accept': '*/*',
        'Accept-Encoding': 'gzip, deflate',
        'Accept-Language': 'zh-CN, zh;q = 0.9',
        'Connection': 'keep-alive',
        'Origin': 'http://10.118.130.127:8001',
        'Cookie': 'loginName = cxcwz;yybm = 37170101; overtimeRedireect=DIPSMONITOR; SF_cookie_6=27943769; JSESSIONID=pEgrYU2R6JiKYZInaouDfkuXkhlJTvjQ!466691487!15742263',
        'X-Requested-With': 'XMLHttpRequest'

    }
   # searchParam = {"gridSessionID":"53880640_b4fd_4d02_ab79_43b241cff015","page":"1","pageSize":"25","updateBeginRowIndex":"0","updateRows":"[]"}

    def start_requests(self):
          yield scrapy.Request("http://10.118.130.127:8001/dip/logonDipsMonitor.jsp", callback=self.login)

    def login(self,response):
     
        yield scrapy.Request(
            url="http://10.118.130.127:8001/dip/dipsLogon.do", 
            body=json.dumps({"method": "doLogonDipsMonitor", "_xmlString": "<?xml version=\"1.0\" encoding=\"UTF-8\"?><p><s userid=\"cxcwz\"/><s passwd=\"b9e79361b4040a3f3a71668163d2f058\"/><s passWordLogSign=\"0\"/><s current_yybm=\"37170101\"/></p>", "_random": "0.015842269101861817"}),
            dont_filter=True,
            headers=self.headers,
            callback=self.parse)

    def parse(self, response):
           print()

在pycharm中的执行结果如下：
2021-09-28 17:50:32 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2021-09-28 17:50:32 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://10.118.130.127:8001/dip/logonDipsMonitor.jsp> (referer: None)
2021-09-28 17:50:34 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET http://10.118.130.127:8001/dip/dipsLogon.do> (failed 1 times): 404 Not Found
2021-09-28 17:50:38 [scrapy.downloadermiddlewares.retry] DEBUG: Retrying <GET http://10.118.130.127:8001/dip/dipsLogon.do> (failed 2 times): 404 Not Found
2021-09-28 17:50:42 [scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying <GET http://10.118.130.127:8001/dip/dipsLogon.do> (failed 3 times): 404 Not Found
2021-09-28 17:50:42 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://10.118.130.127:8001/dip/dipsLogon.do> (referer: http://10.118.130.127:8001/dip/logonDipsMonitor.jsp)
2021-09-28 17:50:42 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <404 http://10.118.130.127:8001/dip/dipsLogon.do>: HTTP status code is not handled or not allowed

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-微编程 2021-09-29 09:15
关注
404就是请求不到资源，路径问题，看你的报错呀控制台里面是GET请求，但是浏览器里面是POST,这两个响应不同也就找不到路径了，如果不是这个问题那你就再仔细看看路径吧

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

scrapy抓取关注者返回403，加请求头也报403，尝试添加了其他的请求头依然403，怎么解决 python
2021-07-25 16:57

回答 1 已采纳服务器拒绝了你的连接，你的ip可能被封了
在scrapy中能不能进行多次post请求？ python
2020-12-13 19:29

回答 1 已采纳通过scrapy 可以多次发送 post 请求的，在start_requests方法中通过 yield 去调用另一个方法即可
scrapy 这个端口什么意思，我电脑没有这个端口也能抓取到数据。这个端口作用是什么 python
2021-07-29 20:21

回答 1 已采纳看中间件代码，这两个不是scrapy自带的玩意
Python - 爬虫之Scrapy
2021-07-13 19:23

GitLqr的博客 Scrapy 是一个 python 编写的，被设计用于爬取网络数据、提取结构性数据的开源网络爬虫框架。作用：少量的代码，就能够快速的抓取官方文档：https://scrapy-chs.readthedocs.io/zh_CN/0.24/ 补充：Scrapy 使用...
scrapy框架能不能阻塞某一个请求，等其他的请求全部结束在执行这个请求呢 python 爬虫
2021-08-25 09:27

回答 3 已采纳不会啊，传参+回调函数，不会导致数据流错乱的。回调函数只是处理上一层调用回调函数的时传入的参数/url
python3 scrapy Request 请求时怎么保持headers 的参数首字母不大写 python 数据挖掘
2019-05-15 16:44

回答 1 已采纳在spider文件中spider类的上面写下不希望首字母大写的header ``` from twisted.web.http_headers import Headers as TwistedH
scrapy + selenium抓取到的网易云页面不完整 python 开发语言
2020-08-10 15:06

回答 1 已采纳 https://blog.csdn.net/lovemenghaibin/article/details/83111374
scrapy 搜索关键字_Scrapy抓取动态网页
2021-02-04 20:05

weixin_39646658的博客 3)点击输入关键字后进行查询，而浏览器url地址不变本篇文章不借助任何外部工具，实例操作如何以观察网络通信的方法解析动态网页。环境：Win10 , python2.7，scrapy 1.4.0，Chrome浏览器，Firefox浏览器1、观察是否为...
scrapy + selenium 抓取不到完整的网易云页面 python 开发语言
2020-08-10 15:18

回答 1 已采纳 https://blog.csdn.net/lovemenghaibin/article/details/83111374
用scrapy.Request怎么抓取JS动态页面 python
2022-01-03 10:32

回答 1 已采纳 self.xidian_next_page确定有值吗
scrapy中请求携带json与request有什么区别？【赏】 python
2020-12-15 11:12

回答 4 已采纳兄弟，半个小时的辛苦 class CeshiSpider(scrapy.Spider): name = 'ceshi' api_headers = { 'Host'
Python之 - 使用Scrapy建立一个网站抓取器，网站爬取Scrapy爬虫教程
2019-05-06 15:46

码在天涯的博客 Scrapy是一个用于爬行网站以及在数据挖掘、信息处理和历史档案等大量应用范围内抽取结构化数据的应用程序框架，广泛用于工业。在本文中我们将建立一个从Hacker News爬取数据的爬虫，并将数据按我们的要求存储在...
scrapy 找不到txt文件是为什么？ python
2021-12-14 09:34

回答 1 已采纳 with open(r'ccgpwin_2021\publishTime','r') as f: preservationTime = f.readline() 有帮助请采纳
【python】网络爬虫——Scrapy
2024-04-02 15:16

草莓泰面包的博客 item按数字从低到高的顺序通过pipeline，通常将这些数字定义在0-1000范围内（0-1000随意设置，数值越低，组件的优先级越高）这个错误通常是由于网站的访问限制导致的，403 错误表示服务器拒绝了你的请求。
【Python】使用Scrapy 网络爬虫框架Demo
2022-02-25 15:25

灵枢_的博客 Python 使用Scrapy爬虫框架
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月29日

悬赏问题

¥15 请教：如何用postman调用本地虚拟机区块链接上的合约？
¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题：[h264 @ 000000004faf7500]no frame？
¥15 乘性高斯噪声在深度学习网络中的应用
¥15 运筹学排序问题中的在线排序
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛

scrapy 请求chrome控制台抓取到的请求地址，但是报404，地址直接在浏览器输入也是报404

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新