scrapy爬虫出现 DEBUG: Crawled (404)

为什么会出现解析页面错误呢？

2019-04-17 16:14:46 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://www.xxx.xx/xxgk/xwzx/zwdt/None> (referer: http://www.xxx.xx/xxgk/xwzx/zwdt/index_1.htm)
2019-04-17 16:14:46 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://www.xxx.xx/xxgk/xwzx/zwdt/None> (referer: http://www.xxx.xx/xxgk/xwzx/zwdt/index_1.htm)
2019-04-17 16:14:46 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://www.xxx.xx/xxgk/xwzx/zwdt/None> (referer: http://www.xxx.xx/xxgk/xwzx/zwdt/index_1.htm)
2019-04-17 16:14:46 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://www.xxx.xx/xxgk/xwzx/zwdt/None> (referer: http://www.xxx.xx/xxgk/xwzx/zwdt/index_1.htm)
2019-04-17 16:14:46 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://www.xxx.xx/xxgk/xwzx/zwdt/None> (referer: http://www.xxx.xx/xxgk/xwzx/zwdt/index_1.htm)

代码在上边，解析一个页面为什么返回了页面的None，？是网站监测到爬虫了吗？scrapy需要再哪更改headers呢我尝试了在主程序里更改然后yield 然而失败了
谢谢各位

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
q_q马小白 2019-08-21 17:10
关注
如果楼主是用scrapy框架爬的话，可以在settings.py加上User-Agent信息，这样应该就可以了

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决
无用 21
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

爬虫中遇到的问题Crawled (404)，[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to
2019-09-19 21:13

xiaobai_IT_learn的博客 1.错误1：start_url不存在 Crawled (200) <... (referer: None) ...DEBUG: Crawled (404) <GET http://www.itcast.cn/channel/teacher.shtml/> (referer: None) 解决：复制url的完全地址 ...
python scrapy爬虫遇见301_python scrapy框架爬虫遇到301
2020-12-23 12:26

步昇航的博客 Python -- Scrapy 框架简单介绍（Scrapy 安装及项目创建） Python -- Scrapy 框架简单介绍最近在学习python 爬虫,先后了解学习urllib.urllib2.requests等,后来发现爬虫也有很多框架,而推荐学习最多就是Scrapy框架 ...
2024年最新Python使用Scrapy框架爬虫（一）
2024-05-02 05:27

2301_82231215的博客 Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，...
使用scrapy做爬虫遇到的一些坑：爬虫使用scrapy爬取网页返回403错误大全以及解决方案
2018-05-04 21:57

腾阳的博客今天学习scrapy爬取网络时遇到的一些坑的可能正常情况：DEBUG: Crawled (200) <GET http://www.techbrood.com/> (referer: None) 错误情况：DEBUG: Crawled (403) <GET ...
Python 爬虫框架Scrapy的安装与基本使用（入门）
2020-02-29 22:13

「已注销」的博客什么是爬虫网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序...
Scrapy爬虫框架-自定义中间件
2022-02-18 16:23

Bruce_xiaowei的博客 Scrapy爬虫框架-自定义中间件 Scrapy中内置了多个中间件，不过在多数情况下开发者都会选择创建一个属于自己的中间件，这样既可以满足自己的开发需求，还可以节省很多开发时间。在实现自定义中间件时需要重写...
Python：Spider爬虫工程化入门到进阶（1）创建Scrapy爬虫项目
2023-08-03 23:09

彭世瑜的博客 Python：Spider爬虫工程化入门到进阶系列: Python：Spider爬虫工程化入门到进阶（1）创建Scrapy爬虫项目 Python：Spider爬虫工程化入门到进阶（2）使用Spider Admin Pro管理scrapy爬虫项目本文通过简单的小例子，...
Scrapy 爬虫框架
2022-02-17 16:04

Bruce_xiaowei的博客 Scrapy 爬虫框架 1. 概述 Scrapy是一个可以爬取网站数据，为了提取结构性数据而编写的开源框架。Scrapy的用途非常广泛，不仅可以应用到网络爬虫中，还可以用于数据挖掘、数据监测以及自动化测试等。Scrapy是基于...
Scrapy爬虫中处理重定向(301\302)问题
2024-04-24 16:55

S4ke的博客问题背景例如,在爬取... 通过以上两个步骤，你的Scrapy爬虫就能更好地处理来自网站的301和302重定向问题，而不会因为重定向而导致爬虫意外关闭。这样可以更好控制重定向逻辑，保证爬虫的稳定运行和数据的完整性。
pythonscrapy爬虫_Scrapy爬虫框架
2020-11-24 12:13

weixin_39795479的博客一、scrapy爬虫框架结构1、scrapy不是一个函数功能库，而是一个爬虫框架爬虫框架是实现爬虫功能的一个软件结构和功能组件集合爬虫框架是一个半成品，能够帮助用户实现专业网络爬虫2、“5+2”结构（1）engine（不需要...
没有解决我的问题, 去提问

scrapy爬虫出现 DEBUG: Crawled (404)

1条回答 默认 最新

1条回答默认最新