为什么xpath()方法就提取不了a标签中的href属性内容呢？

我的代码是这样的：
方案一（详细版）：

file = response.xpath('//*[@id="main-xm-content"]/table/tbody/tr[2]/td/table/tbody/tr[3]/td/table/tbody/tr/td/table/tbody/tr[3]/td[2]/a/@href').extract()

方案二（精简准确版）：

file = response.xpath(''//div[@id="main-xm-content"]/table//table//table//table//a//@href')

网页结构大致是这样的：

<table width="900" border="0" cellspacing="0" cellpadding="0">
<tbody>
    <tr>...</tr>
    <tr>...</tr>
    <tr>
        <td width="25">&nbsp;</td>
        <td height="20">
                    <a href="this_is_a_link.gif">这是文本内容.pdf</a>
            </td>
        </tr>
    </tbody>
</table>

但是两种操作的结果不约而同地都是这样的：

>>> file
>>>[]

我很纳闷，这个办法用在其他网页都没出过问题，怎么一到这里就提取不了了呢？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
罗家马德里球迷 2019-03-19 23:41
关注
问题已被解决，原因应该是：
1、模糊定位不准确，应尽量寻找临近且稳定的标签；
2、详细定位不可靠，尤其是
标签，一般认为在xpath可直接忽视，因为网页源代码往往原来是没有此类标签的，仅仅是网页生成后才出现。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

python爬虫中xpath的使用方法
2018-05-17 11:00

皮皮AI记的博客 python爬虫中xpath的使用方法前言使用案例 01.通过对应的a标签获取a标签中的内容 02.获取指定路径下a标签的属性 03.获取绝对路径下a...07.查找倒数第二个li标签里的a标签的href属性在浏览器中获取xpath方法 ...
python爬虫xpath提取数据_Python爬虫之各种数据提取方法（xpath、lxml、jsonpath、re）...
2020-11-23 03:04

weixin_39830917的博客节点,属性,元素,语法,数据Python爬虫之各种数据提取方法（xpath、lxml、jsonpath、re）二、数据提取在发送请求获取响应之后，可能存在多种不同类型的响应内容；而且很多时候，我们只需要响应内容中的一部分数据。1 ...
为什么你的AI知识管理更新滞后？AI应用架构师的解决策略
2025-07-29 09:41

AI开发架构师的博客你有没有遇到过这样的场景？用AI助手问“‘搭子’是什么意思”，它回答“抱歉，未找到相关信息”（其实“搭子”是2024年...说清楚“为什么AI知识会滞后”（根源分析）；教你“怎么解决滞后问题”（架构师的系统策略）；
lxml 库使用：结合 XPath 快速提取网页数据
2025-10-29 23:46

python 爬虫工程师的博客本文系统介绍了Python lxml库在网页数据提取中的应用，重点解析了其高性能HTML/XML解析能力与XPath语法结合的技术方案。内容涵盖lxml的安装配置、核心功能（包括HTML解析、XPath表达式执行、节点遍历与二次解析）...
2- Python 网络爬虫 — 如何精准提取网页数据？XPath、Beautiful Soup、pyquery 与 parsel 实战指南
2025-08-08 14:14

墨尘游子的博客在网络爬虫与数据采集场景中，是核心步骤之一。当我们通过请求工具（如requestsaiohttp）获取到网页的 HTML/XML 源码后，需要从中精准提取目标数据（如文本、链接、属性等）。目前 Python 生态中，常用的解析工具...
XPath爬取必踩的5个坑：从定位失败到内容乱码的实战解法（附调试工具+优化技巧）
2025-10-30 07:01

程序员威哥的博客要依赖稳定属性，不要依赖动态ID/class优先用data-*属性（如@data-id，通常静态），其次用class的固定部分，避免id中带数字。要先看原始HTML，不要轻信浏览器Elements面板原始HTML是解析器的输入，浏览器渲染后的DOM...
lxml库和Xpath提取网页数据的基础与实战：完整指南与实战
2024-02-22 11:05

一键难忘的博客在网络爬虫任务中，数据可视化和报告撰写是非常重要的环节，它们帮助你向其他人传达你的发现和见解。通过选择合适的可视化工具和报告撰写方式，你可以更有效地分享你的研究成果，推动业务决策的制定和执行。希望这些...
人人都是XPath高手：XPath一键搞定实战案例
2025-10-09 14:59

云起川南的博客在网页自动化和数据采集中，XPath（XML Path Language）是一个神兵利器。它可以让你用一行简单的表达式，从复杂的 HTML 结构中精准提取你想要的数据。 RPA 自动化流程（如影刀、UiBot、Automation Anywhere 等） ...
11、Web数据提取：XPath、BeautifulSoup与Scrapy的应用
2025-07-16 03:20

play7的博客本文详细介绍了使用XPath、BeautifulSoup和Scrapy进行Web数据提取的技术与方法。涵盖了从基础语法到实际应用的多个方面，包括XPath的节点查询、BeautifulSoup的HTML解析与信息提取、以及Scrapy框架的核心组件与使用...
一个Python爬虫案例，带你掌握xpath数据解析方法！
2022-04-29 11:28

菜鸟学Python的博客文章目录xpath基本概念xpath解析原理环境安装如何实例化一个etree对象：xpath(‘xpath表达式’)xpath爬取58二手房实例爬取网址完整代码效果图xpath图片解析下载实例爬取网址完整代码效果图xpath爬取全国城市名称实例...
没有解决我的问题, 去提问

为什么xpath()方法就提取不了a标签中的href属性内容呢？

3条回答 默认 最新

3条回答默认最新