为什么xpath()方法就提取不了a标签中的href属性内容呢？

我的代码是这样的：
方案一（详细版）：

file = response.xpath('//*[@id="main-xm-content"]/table/tbody/tr[2]/td/table/tbody/tr[3]/td/table/tbody/tr/td/table/tbody/tr[3]/td[2]/a/@href').extract()

方案二（精简准确版）：

file = response.xpath(''//div[@id="main-xm-content"]/table//table//table//table//a//@href')

网页结构大致是这样的：

<table width="900" border="0" cellspacing="0" cellpadding="0">
<tbody>
    <tr>...</tr>
    <tr>...</tr>
    <tr>
        <td width="25">&nbsp;</td>
        <td height="20">
                    <a href="this_is_a_link.gif">这是文本内容.pdf</a>
            </td>
        </tr>
    </tbody>
</table>

但是两种操作的结果不约而同地都是这样的：

>>> file
>>>[]

我很纳闷，这个办法用在其他网页都没出过问题，怎么一到这里就提取不了了呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
罗家马德里球迷 2019-03-19 23:41
关注
问题已被解决，原因应该是：
1、模糊定位不准确，应尽量寻找临近且稳定的标签；
2、详细定位不可靠，尤其是
标签，一般认为在xpath可直接忽视，因为网页源代码往往原来是没有此类标签的，仅仅是网页生成后才出现。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

为什么xpath()方法就提取不了a标签中的href属性内容呢？ list python 数据挖掘
2019-03-15 23:43

回答 3 已采纳问题已被解决，原因应该是： 1、模糊定位不准确，应尽量寻找临近且稳定的标签； 2、详细定位不可靠，尤其是标签，一般认为在xpath可直接忽视，因为网页源代码往往原来是没有此类标签的，仅仅是网页生成
用selenium_xpath提取多个div下的a标签中href python selenium 有问必答
2021-11-08 21:20

回答 1 已采纳类似这样 .find_elements_by_xpath('//div[@class="dual-col"]/div/a/@href') 如有帮助，望采纳！谢谢!
为什么同样的xpath路径在xpath中和pycharm中显示的内容不一样 python 有问必答
2022-08-09 09:00

回答 4 已采纳第二张图明显题主是开发工具审核dom进行查看，这个并不是源代码，审核dom得到的html代码有可能被js修改过，而request之类得到的是源代码下面这种才叫源代码，src是默认的加载等待图片，实际
python爬虫xpath提取数据_Python爬虫之各种数据提取方法（xpath、lxml、jsonpath、re）...
2020-11-23 03:04

weixin_39830917的博客节点,属性,元素,语法,数据Python爬虫之各种数据提取方法（xpath、lxml、jsonpath、re）二、数据提取在发送请求获取响应之后，可能存在多种不同类型的响应内容；而且很多时候，我们只需要响应内容中的一部分数据。1 ...
xpath如何获取同级两个不同名称标签下的内容呢？爬虫
2022-07-13 10:40

回答 2 已采纳分开爬取吧，然后写个循环对文本进行拼接这是最简单的，对整个header更麻烦
Xpath无法定位含a标签的span中的任意元素 html python 有问必答爬虫
2021-12-25 14:09

回答 1 已采纳 from lxml import etree con = """<html> <body><span> <img src="xxx" alt="xx
为什么XPath找不到标签？ php xml
2017-07-04 19:00

回答 1 已采纳 Well, you query is almost correct. You have just forgotten putting last closing "]" char. It ough
lxml库和Xpath提取网页数据的基础与实战：完整指南与实战
2024-02-22 11:05

一键难忘的博客在网络爬虫任务中，数据可视化和报告撰写是非常重要的环节，它们帮助你向其他人传达你的发现和见解。通过选择合适的可视化工具和报告撰写方式，你可以更有效地分享你的研究成果，推动业务决策的制定和执行。希望这些...
python使用xpath提取属性值不完整 python 爬虫
2022-05-30 23:15

回答 2 已采纳不知道是不是有个逗号的原因，然后把后面给截断了，可以试试正则去提取 import requests,re url = 'https://www.renren.com/login' rep=reque
python如何用xpath取两个标签之间的内容 python 爬虫
2022-05-18 17:43

回答 3 已采纳 //span[text()="名字:"]/following::a[position()<count(//span[text()="名字:"]/following::a)-count(//spa
我用xpath提取标签属性内容时，一直给我返回的时空列表后端
2021-11-03 10:02

回答 1 已采纳它的src写的“ no Spiders are not allowed to crawl!”，做了反爬虫处理的！
Python爬虫——使用XPath和lxml库解析HTML
2022-05-28 13:45

Mount256的博客文章目录0 安装 XPath Helper 插件1 XPath 语法1.1 节点1.2 谓语2 lxml 库使用实例2.1 解析字符串为 HTML2.2 获取 div 标签2.3 获取某个指定的 div 标签2.4 获取属性为 id='even' 的 div 标签2.5 获取标签下的属性值...
使用xpath从background-image样式属性中提取值 php
2017-11-01 05:47

回答 1 已采纳 1) You lost quotes wrapping xpath - it's string. 2) with dom xpath, query returns set of nodes w
一个Python爬虫案例，带你掌握xpath数据解析方法！
2022-04-29 11:28

菜鸟学Python的博客文章目录xpath基本概念xpath解析原理环境安装如何实例化一个etree对象：xpath(‘xpath表达式’)xpath爬取58二手房实例爬取网址完整代码效果图xpath图片解析下载实例爬取网址完整代码效果图xpath爬取全国城市名称实例...
【人工智能】Python常用的两种爬虫的方式正则表达式、XPath
2019-04-19 17:23

沙振宇的博客正在学习python的爬虫，于是爬了一下现在自己的CSDN博客的个人信息。本文讲解了我利用Python3爬取CSDN个人信息的...这篇文章中提过。只不过那篇文章讲解的是利用Scrapy框架去爬，本文讲的是直接用xpath模块的一种效果。
没有解决我的问题, 去提问

悬赏问题

¥30 求解达问题（有红包）
¥15 请解包一个pak文件
¥15 不同系统编译兼容问题
¥100 三相直流充电模块对数字电源芯片在物理上它必须具备哪些功能和性能？
¥30 数字电源对DSP芯片的具体要求
¥20 antv g6 折线边如何变为钝角
¥30 如何在Matlab或Python中设置饼图的高度
¥15 nginx中的CORS策略应该如何配置
¥30 信号与系统实验：采样定理分析
¥100 我想找人帮我写Python 的股票分析代码，有意请加mathtao