qq_31270461 2021-05-06 08:49 采纳率: 100%
浏览 137
已采纳

scrapy爬虫无法翻页

萌新刚刚开始接触爬虫,源网页是个小说网页,应该是没加反爬的机制的https://www.luoqiuzw.com/book/4841/74745706.html

测试了下,只爬单页的话完全没问题,问题点在于构建下一页地址和翻页条件都正确的情况下,无法执行翻页,有没有大佬帮忙看看是什么原因,下面就是主文件的代码

import scrapy
from luoqiu.items import LuoqiuItem
import re



class LuoqiuSpider(scrapy.Spider):
    name = 'luoqiu'
    allowed_domains = ['luoqiu.com']
    start_urls = ['https://www.luoqiuzw.com/book/4841/74745706.html']

    def parse(self, response):
        item=LuoqiuItem()
        item['title']=response.xpath('//*[@id="main"]/div/div/div[2]/h1/text()').extract_first() #获取标题
        print(item['title'])#打印标题
        item['zhengwen']=response.xpath('//*[@id="content"]/p[2]/text()').extract()#测试,只获取正文1行
        print(item['zhengwen'])

        next_url='https://www.luoqiuzw.com'+response.xpath('//*[@id="main"]/div/div/div[2]/div[1]/a[4]/@href').extract_first()#构建下一页
        print(next_url)   #https://www.luoqiuzw.com/book/4841/74745707.html
        next_page=re.search(r'\d{8}',next_url).group()   #提取下一页的页码7474707 str
        print(next_page,type(next_page))#提取下一页的页码7474707 str

        if int(next_page) <=74745720:#判断翻页,这边测试就翻几页
           yield scrapy.Request (url=next_url ,callback=self.parse)


上面这个是执行结果

  • 写回答

5条回答 默认 最新

  • CSDN专家-HGJ 2021-05-06 12:51
    关注

    代码中的allow_domains有误,应该为:['louqiuzw.com']。原链接会出现连接丢失错误,与没有传递headers或网页响应慢有关。尝试测试其他网页,在start_urls列出测试网页地址列表。

    class LuoqiuSpider(scrapy.Spider):
        name = 'luoqiu'
        allowed_domains = ['luoqiu.cc']
        start_urls = [
            f'https://www.luoqiu.cc/297/297526/{page}.html' for page in range(45813215, 45813220)]
        rules = (
            Rule(LinkExtractor(allow=r'297526/.*'),
                 callback='parse', follow=True),
        )
        def parse(self, response):
            #code
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(4条)

报告相同问题?

悬赏问题

  • ¥15 java 操作 elasticsearch 8.1 实现 索引的重建
  • ¥15 数据可视化Python
  • ¥15 要给毕业设计添加扫码登录的功能!!有偿
  • ¥15 kafka 分区副本增加会导致消息丢失或者不可用吗?
  • ¥15 微信公众号自制会员卡没有收款渠道啊
  • ¥15 stable diffusion
  • ¥100 Jenkins自动化部署—悬赏100元
  • ¥15 关于#python#的问题:求帮写python代码
  • ¥20 MATLAB画图图形出现上下震荡的线条
  • ¥15 关于#windows#的问题:怎么用WIN 11系统的电脑 克隆WIN NT3.51-4.0系统的硬盘