scrapy翻页失败怎么办

scrapy翻页失败
非专业学生，因论文研究学习爬虫技术，大部分代码都是靠gpt帮忙完成，但这个翻页gpt也弄不出来
想要爬取https://wjk.hnftp.gov.cn/policy.html?potency=4%E8%BF%99%E4%B8%AA%E7%BD%91%E7%AB%99%E7%9A%84%E6%94%BF%E5%BA%9C%E6%94%BF%E7%AD%96%E6%96%87%E6%9C%AC%EF%BC%8C
下图为网页翻页区，无论在哪一页，网站url都不变，就是上面那个。
不同的页面点击“下一页”，对应的xpath也不一样。我在第一页的“下一页”xpath为//[@id="page"]/div[1]/a[6]；第二页的“下一页”xpath为//[@id="page"]/div[1]/a[9]；第三页的“下一页”xpath为//*[@id="page"]/div[1]/a[10]……
但他们element都是一样的，不知道这条信息有没有用。下一页 >
下面是我在gpt帮助下搞的代码，不知道为什么，同一页节点信息会返回两次。翻页一直都不成功，请求帮助

import logging
import scrapy#用于编写爬虫的库，提供了高效的数据抓取框架
#selenium:一个用于自动化浏览器的工具，可模拟用户与网页交互，适用于处理动态内容的网页
from selenium import webdriver
#webdriver:通过Selenium控制浏览器进行自动化操作
#By:Selenium用来查找页面元素的定位方式之一
from selenium.webdriver.common.by import By
#Service：用于管理和启动Chrome浏览器的服务
from selenium.webdriver.chrome.service import Service
#ChromeDriverManager:自动管理并下载Chrome浏览器驱动的工具
from webdriver_manager.chrome import ChromeDriverManager
#time：用来控制程序的延时（例如，等待页面加载完毕）
import time

from difang.items import DifangItem
logging.basicConfig(level=logging.WARNING)

class HngovSpider(scrapy.Spider):
    name = "hngov"
    #2.检查修改allowed_domains
    allowed_domains = ["hnftp.gov.cn"]
    #1.修改start_urls
    start_urls = ["https://wjk.hnftp.gov.cn/policy.html?potency=4"]
    def __init__(self, *args, **kwargs):
        super(HngovSpider, self).__init__(*args, **kwargs)
        #初始化Selenium WebDriver
        options = webdriver.ChromeOptions()
        options.add_argument('--headless')
        self.driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

    def parse(self, response):
        #用Selenium加载网页
        self.driver.get(response.url)
        #等待页面加载完成，最多等待10秒
        time.sleep(5)
        #提取数据
        #获取所有政策节点列表
        node_list = self.driver.find_elements(By.XPATH,'//*[@id="policy_list_ul"]/div')
        #输出节点数量
        print(f"Found {len(node_list)} policy nodes.")
        #创建一个item对象用于保存数据
        for node in node_list:
            item = DifangItem()

            #获取政策名称，直接选择<a>标签
            name = node.find_element(By.XPATH,'.//a').text
            item['name'] = name
            #获取政策链接URL，选择<a>标签的href属性
            link = node.find_element(By.XPATH,'.//a').get_attribute('href')
            item['link'] = link#使用Selenium的get_attribute获取链接
            #获取政策类型
            type = node.find_element(By.XPATH,'.//div[2]/p/span[1]').text
            item['type'] = type
            #获取政策有效性
            valid = node.find_element(By.XPATH, './/div[2]/p/span[2]').text
            item['valid'] = valid
            #获得政策发布日期
            date = node.find_element(By.XPATH, './/div[3]/span').text
            item['date'] = date
            yield item
            # 查找并点击“下一页”按钮
            # 查找并点击“下一页”按钮
        try:
                # 查找“下一页”按钮
            next_button = self.driver.find_element(By.XPATH, "//*[contains(@href, 'javascript:next()')]")

            if next_button:
                    # 点击“下一页”按钮
                next_button.click()

                    # 等待页面加载
                time.sleep(5)

                    # 获取新页面的HTML并传递给Scrapy进行处理
                page_source = self.driver.page_source  # 获取当前页面的HTML

                    # 使用 page_source 作为请求的body，确保 Scrapy 不重新发起新的请求，而是直接处理页面内容
                yield scrapy.Request(
                    url=self.driver.current_url,  # 使用当前URL
                    callback=self.parse,  # 继续解析
                    dont_filter=True,  # 不进行过滤，确保每次都会请求
                    body=page_source,  # 传递页面HTML内容
                    headers={'Content-Type': 'text/html'},  # 设置请求头，确保传递HTML内容
                )
            else:
                self.logger.info("No more pages to scrape. Stopping.")
        except Exception as e:
            self.logger.error(f"Next button not found or error while clicking: {e}")

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
码农阿豪@新空间新星创作者: 前端开发技术领域 2024-12-24 10:03
关注
让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言
根据您提供的信息，您在使用Scrapy爬虫时遇到了翻页失败的问题。首先，需要注意的是，Scrapy是一个用来爬取网站数据的Python框架，与Selenium不同，它主要用于静态页面的抓取，对于动态加载的页面，可能需要结合Selenium来处理。在您提供的代码中，您使用了Selenium来模拟浏览器操作，加载网页并提取数据，但在翻页部分可能存在问题导致无法成功翻页。下面给出一些可能的解决方案：
确认抓取页面是否需要JavaScript渲染：您提到的页面翻页是通过JavaScript动态加载的，这可能导致Scrapy无法直接捕获到翻页事件。您可以尝试使用Selenium结合Scrapy，通过Selenium模拟点击翻页按钮来实现翻页操作。
使用Scrapy的CrawlSpider：CrawlSpider是Scrapy框架提供的一个高级爬取规则类，其中包括了基于规则的爬取机制。您可以尝试使用CrawlSpider类来定义规则，使其在爬取过程中自动翻页。
确认翻页按钮的XPath定位是否准确：您提到点击不同页的“下一页”按钮对应的XPath不同，需要确认您的XPath是否正确定位到了“下一页”按钮。您可以使用浏览器的开发者工具来验证XPath是否准确。以下是一种可能的解决方案的示例代码：

from scrapy import Spider from scrapy.selector import Selector class MySpider(Spider): name = 'myspider' start_urls = ['https://wjk.hnftp.gov.cn/policy.html?potency=4'] def parse(self, response): # 提取数据的部分 # 查找并点击下一页 next_button = self.driver.find_element_by_xpath('//a[text()="下一页 >"]') if next_button: next_button.click() yield scrapy.Request(url=response.url, callback=self.parse)

请根据您的实际情况进行适当修改和调试。希望这些信息对您有帮助。如果仍然遇到问题，请提供更多详织的信息，以便更好地帮助您解决问题。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Scrapy爬虫案例01——翻页爬取
2020-04-08 19:50

小赖同学啊的博客创建工程　我是用的是pycharm开发，打开pycharm，然后在下面的“Terminal”中输入...上图中，因为我的工作空间中已经存在“freebuf”所以第一次创建失败，这里我创建的名字为"freebuf2"，创建成功。freebuf2的目录...
Scrapy框架知识手册 - 从零到一
2020-06-20 23:33

BlackStar_L的博客 Scrapy框架一、初识Scrapy1、Scrapy简介2、网络爬虫原理3、网络爬虫的基本流程二、Scrapy安装与创建1、安装2、查看命令3、主要命令三、Scrapy简单实现1、项目创建2、创建爬虫3、更改robot协议4、分析页面5、编写...
第八十三篇：爬虫利器（二）：使用Scrapy框架构建高效爬虫项目
2025-12-21 21:32

yongche_shi的博客本文系统介绍了Scrapy爬虫框架的核心概念与实战应用。首先阐述了Scrapy相比简单爬虫工具的优势，包括其异步架构、组件化设计和高效并发处理能力。随后深入解析了Scrapy引擎的工作原理和数据流机制，重点讲解了中间件...
Python爬虫框架王者争霸：Scrapy vs Pyspider深度对比
2024-12-24 10:08

gitblog_00881的博客 Python爬虫框架王者争霸：Scrapy vs Pyspider深度对比本文深入对比分析Python生态中两大主流爬虫框架Scrapy和Pyspider的核心架构、性能特点和适用场景。Scrapy基于Twisted异步框架，采用高度模块化的工程设计，提供...
python 3.7下载安装scrapy_在python3.9下如何安装scrapy的方法
2021-03-04 09:22

weixin_39777213的博客官网地址人流量统计新建AipBodyAnalysisfrom aip import AipBodyAnalysis""" 你的 APPID AK SK """APP_ID = '你的 App ID'API_KEY = '你2021-02-03 14:24:01本文主要介绍了在python3.9下如何安装scrapy的方法，分享...
爬虫框架scrapy之中间件
2019-05-05 21:22

菲宇的博客中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改，从而开发出适应不同情况的爬虫。 “中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。...
基于Scrapy框架的Python股票数据爬取实战项目
2025-11-08 18:16

鄧寜的博客本文还有配套的精品资源，点击获取简介：Python股票信息爬取是量化分析与金融数据获取的关键技术，Scrapy作为高效的Python爬虫框架，提供了完整的数据抓取与处理机制。本文介绍如何使用Scrapy框架实现股票市场数据...
基于Scrapy+Selenium+Playwright的Python全栈爬虫实战：从数据采集到智能解析
2025-06-21 23:37

Python爬虫项目的博客本文将全面介绍基于Scrapy框架，结合Selenium和Playwright等最新技术的全栈爬虫解决方案，涵盖从基础爬取到高级反反爬、智能解析的完整技术链。Scrapy是一个为爬取网站数据、提取结构化数据而编写的应用框架，其核心...
Python爬虫开发学习全教程第二版，爆肝十万字【建议收藏】
2021-10-17 13:35

五包辣条！的博客七、scrapy爬虫框架 scrapy的概念和流程 scrapy的入门使用 scrapy数据建模与请求 scrapy模拟登陆 scrapy管道的使用 scrapy中间件的使用 scrapy_redis概念作用和流程 scrapy_redis原理分析并实现断点续爬以及分布式...
后端领域爬虫在电商平台竞品数据采集中的策略
2025-07-08 23:26

大厂资深架构师的博客竞争对手的新款手机定价...这时候，后端爬虫就成了"自动收集数据的小助手"，它能模拟人类浏览网页的行为，批量抓取所需信息，为竞品分析提供数据支撑。本文的范围是：聚焦后端爬虫技术在电商竞品数据采集中的核心策略。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月24日

scrapy翻页失败怎么办

3条回答 默认 最新

问题事件

3条回答默认最新