python scrapy: xpath循环取子节点数据时一直取的第一个节点数据。

使用xpath循环取post_nodes 的子节点post_node 数据时，一直取的是第一个节点数据，为什么？要怎么修改才正常？

class XpathSpider(scrapy.Spider):
    name = 'xpath'
    allowed_domains = ['news.cnblogs.com']
    start_urls = ['http://news.cnblogs.com/']

    def parse(self, response):
        post_nodes = response.xpath('//div[@id="news_list"]/div[@class="news_block"]')
        for post_node in post_nodes:
            image_url = post_node.xpath('//div[@class="entry_summary"]/a/img/@src').extract_first("")
            post_url = post_node.xpath('//h2/a/@href').extract_first("")
            print(image_url)
            print(post_url)

打印结果：

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
MFine 2020-05-07 14:37
关注
xpath写错了，要写相对路径，也就是在最前面加一个点。

image_url = post_node.xpath('.//div[@class="entry_summary"]/a/img/@src').extract_first("")
post_url = post_node.xpath('.//h2/a/@href').extract_first("")

解决 4

无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python Scrapy：爬取新闻资讯数据的方法
2025-05-15 17:58

AI Python 编程的博客本文旨在为开发人员提供一套完整的新闻资讯数据...Scrapy：一个用Python编写的开源网络爬虫框架Spider：Scrapy中定义如何爬取特定网站的类Item：爬取数据的容器，类似Python字典Selector：用于从网页中提取数据的工具。
Python Scrapy如何使用XPath获取：节点值/innerHTML
2022-06-16 23:18

锐昆的博客 scrapy爬虫提取innerHTML
Python Scrapy：抓取学术网站数据的有效途径
2025-06-06 01:18

光子AI的博客本指南系统解析基于Python Scrapy框架实现学术网站数据抓取的核心技术。从Scrapy的底层原理到学术场景的定制化改造，覆盖概念基础、理论框架、架构设计、实现机制、实际应用及高级考量全流程。通过第一性原理推导...
Python Scrapy：使用Scrapy Shell进行调试
2025-04-25 12:27

AI Python 编程的博客 Scrapy Shell作为Scrapy框架提供的一个交互式调试工具，能够帮助开发者在不运行整个爬虫项目的情况下，快速测试和验证网页数据的提取逻辑、请求的正确性等。本文的目的就是详细介绍如何使用Scrapy Shell进行调试，...
基于Python Scrapy爬虫框架实现的链家二手房数据爬取系统的设计与实现毕业设计论文答辩用 1万+字共41页.docx
2022-02-13 17:30

- **Scrapy爬虫框架**：Scrapy是一个用于Web抓取的强大Python框架，它可以高效地抓取网页数据，并支持多线程爬取。本项目利用Scrapy来开发爬虫逻辑，包括网页请求、响应处理以及数据解析等功能。 - **XPath网页提取...
Python Scrapy框架第一个入门程序示例
2020-09-18 00:52

Scrapy是一个强大的Python爬虫框架，它为网络数据抓取提供了高效的工具集，包括网页下载、解析、数据处理和存储等多个环节。以下是对标题和描述中提到的知识点的详细解释： 1. **Scrapy框架创建项目**：使用`scrapy...
Python Scrapy使用Selector、xpath、css选择器提取数据
2019-08-01 17:51

阿优乐扬的博客从页面中提取数据的核心技术是HTTP文本解析，在Python 中常用以下模块处理此类问题: BeautifulSoup lxml 非常流行的HTTP解析库，API 简洁易用，但解析速度较慢。由C语言编写的xml解析库( libxml2)，解析...
python css和xpath_python爬虫：scrapy框架xpath和css选择器语法
2020-12-10 20:19

weixin_39862899的博客 Xpath基本语法一、常用的路径表达式：表达式描述实例nodename选取nodename节点的所有子节点//div/从根节点选取/div//选取所有的节点，不考虑他们的位置//div.选取当前节点./div..选取当前节点的父节点..@选取属性//@...
Python Scrapy：在Windows系统上的安装与使用
2025-04-28 09:34

AI Python 编程的博客 Scrapy是一个为了爬取网站数据、提取结构性数据而编写的应用框架。它可以应用在数据挖掘、信息处理或存储历史数据等一系列的程序中。本文的目的在于指导读者在Windows系统上完成Scrapy的安装，并详细介绍其使用方法...
Python Scrapy：在Mac OS系统上的开发与调试
2025-04-06 20:45

AI Python 编程的博客 Python Scrapy是一个强大的开源网络爬虫框架，它可以帮助开发者快速、高效地从网页上提取结构化数据。本教程的目的是指导开发者在Mac OS系统上进行Scrapy的开发与调试工作。范围涵盖了从环境搭建、核心概念理解、...
没有解决我的问题, 去提问

python scrapy: xpath循环取子节点数据时一直取的第一个节点数据。

2条回答 默认 最新

2条回答默认最新