【scrapy 爬虫问题】爬虫部分的parse函数没有执行，求解答

scrapy 中的爬虫部分的代码如下：

import scrapy
from bokeproject.items import BokeprojectItem
from scrapy.http import Request

class HexunspiderSpider(scrapy.Spider):
    name = 'hexunspider'
    allowed_domains = ['hexun.com']
    start_urls = ['http://27525283.blog.hexun.com/p1/default.html']
    # http://27525283.blog.hexun.com/
    # http://27525283.blog.hexun.com/p2/default.html
    print(start_urls)
    def parse(self, response):
        item = BokeprojectItem()
        item['name'] = response.xpath('//div[@class="ArticleTitle"]/span/a/text()').extract()
        item['url'] = response.xpath('//div[@class="ArticleTitle"]/span/a/@href').extract()
        item['hits'] = response.xpath('//div[@class="ArticleInfo"]/span/text()').extract()
        item['comment'] = response.xpath('//div[@class="ArticleInfo"]/a/span/text()').extract()
        print(item)
        yield item
        for j in range(2,10):
            nexturl = 'http://27525283.blog.hexun.com/p'+str(j)+'/default.html'
            print(nexturl)
            yield Request(nexturl,callback=self.parse)

同样在 settings.py中设置了

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

parse函数没有执行。DL们这是什么情况是哪个地方没有设置好吗

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

CSDN专家-HGJ 2021-09-08 03:49

关注

是由于没有设置headers，被服务器禁止访问。一是添加headers,二是直接使用scrapy的Request，将如下代码添加进你的代码即可正常运行出结果：

    start_urls = ['http://27525283.blog.hexun.com/p'+str(j)+'/default.html' for j in range(1,6)]
    headers = {
        "user-agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
    }
    custom_settings = {
        'CONCURRENT_REQUEST_PER_DOMAIN': 2,
        'DOWNLOAD_DELAY': 1
    }

    # general crawler
    def start_requests(self):
        for url in self.start_urls:
        # HTTP request
            yield scrapy.Request(
                url=url,
                headers=self.headers,
                callback=self.parse
            )
      #在后面parse函数的里将最后的for循环部分去掉。

如有帮助，请点采纳。

本回答被专家选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

python scrapy爬虫如果想要下一页但是没有href python 爬虫
2022-12-14 00:18

回答 1 已采纳你要模拟参数，具体代码如下： import http.client conn = http.client.HTTPSConnection("chl.cn") #page 5 #submit 下一页
scrapy通用爬虫parse解析中的问题 python 爬虫
2022-10-16 01:14

回答 1 已采纳检查一下parse item 函数的response是否是正常的
python爬虫scrapy python 有问必答
2021-07-22 10:03

回答 2 已采纳看下数据是否是动态加载的，多抓几次包，分析下；可能需要通过添加page参数，进行爬取！
【scrapy 爬虫问题】爬虫文件的parse函数没有执行，求解答
2022-07-29 21:54

weixin_42847617的博客【scrapy 爬虫问题】爬虫文件的parse函数没有执行，求解答
flask+scrapy的爬虫问题 flask json python 爬虫
2018-01-29 07:55

回答 3 已采纳你拿到参数后先写一个bat批处理 scrapy crawl myspider -a category=electronics 再 os.system(r'xx.bat') 来调用 https://d
请问为什么，我无法创建scrapy爬虫项目 python 爬虫
2022-02-07 19:41

回答 1 已采纳库安装失败了
scrapy爬虫翻页操作，python+scrapy python 其他有问必答
2021-04-02 17:02

回答 3 已采纳 # 导入所需库 import requests class Jdcomment_spider(object): # 请求头 headers = { 'User-A
Python scrapy 爬虫入门（三）scrapy 爬虫示例
2021-01-20 03:32

要实现爬虫功能，只要执行四个步骤：定义spider 类确定 spider 的名称（name）获取初始化请求（start_request）解析数据 parse() 1.1 示例1 重写 start_request() 方法示例1：重写 start_request() 方法， 1）...
scrapy爬虫不自动翻页问题爬虫
2021-11-14 09:17

回答 2 已采纳 scrapy框架里面 start_urls里面装的是网页列表，你在上面贴的代码里只放了一个url，所以他只会一直爬这一个网页。用for循环构造出url，然后添加进statrt_urls，然后再运行就解
scrapy下爬虫爬取子页面详细信息部分代码出错 python 爬虫
2021-12-07 21:42

回答 1 已采纳流程通了细节没改 import copy from scrapy import Request from scrapy.spiders import Spider class AniRank(S
scrapy爬虫无法翻页 python 有问必答
2021-05-06 08:49

回答 5 已采纳代码中的allow_domains有误，应该为：['louqiuzw.com']。原链接会出现连接丢失错误，与没有传递headers或网页响应慢有关。尝试测试其他网页，在start_urls列出测试网
python scrapy爬虫代码及填坑
2020-09-18 20:37

在实际使用Scrapy爬虫时，你可能会遇到各种问题，例如反爬机制、动态加载内容、编码问题等。这些问题需要通过技术手段如设置User-Agent、使用中间件处理JavaScript、处理编码转换等来解决。同时，了解HTTP协议和网页...
【scrapy爬虫问题】scrapy.xpath解析返回的结果有问题，求解答！！！ python
2020-07-13 19:48

回答 1 已采纳先打印response看看和你在网页上看到的一样吗？？
Python 爬虫Scrapy课件源码
2023-06-14 14:34

**Python 爬虫Scrapy框架详解** Python作为一门强大的...本课件源码包含了Scrapy爬虫项目实例，可以帮助学习者了解并掌握Scrapy的基本用法和高级特性。通过实际操作，可以加深对Scrapy的理解，提升网络爬虫开发技能。
Scrapy爬虫框架详解（python）
2024-07-06 23:16

WishYouAFortune的博客 Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。...Scratch，是抓取的意思，这个Python的爬虫框架叫Scrapy，大概也是这个意思吧，就叫它：小抓抓吧。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家已采纳回答 9月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月7日

悬赏问题

¥20 WPF MVVM模式 handycontrol 框架， hc:SearchBar 控件 Text="{Binding NavMenusKeyWords}" 绑定取不到值
¥15 需要手写数字信号处理Dsp三个简单题不用太复杂
¥15 数字信号处理考试111
¥100 关于#audobe audition#的问题，如何解决？
¥15 allegro17.2生成bom表是空白的
¥15 请问一下怎么打通CAN通讯
¥20 如何在 rocky9.4 部署 CDH6.3.2？
¥35 navicat将excel中的数据导入mysql出错
¥15 rt-thread线程切换的问题
¥15 高通uboot 打印ubi init err 22

【scrapy 爬虫问题】 爬虫部分的parse函数没有执行，求解答

1条回答 默认 最新

问题事件

悬赏问题

【scrapy 爬虫问题】爬虫部分的parse函数没有执行，求解答

1条回答默认最新