为什么xpath()方法就提取不了a标签中的href属性内容呢？

我的代码是这样的：
方案一（详细版）：

file = response.xpath('//*[@id="main-xm-content"]/table/tbody/tr[2]/td/table/tbody/tr[3]/td/table/tbody/tr/td/table/tbody/tr[3]/td[2]/a/@href').extract()

方案二（精简准确版）：

file = response.xpath(''//div[@id="main-xm-content"]/table//table//table//table//a//@href')

网页结构大致是这样的：

<table width="900" border="0" cellspacing="0" cellpadding="0">
<tbody>
    <tr>...</tr>
    <tr>...</tr>
    <tr>
        <td width="25">&nbsp;</td>
        <td height="20">
                    <a href="this_is_a_link.gif">这是文本内容.pdf</a>
            </td>
        </tr>
    </tbody>
</table>

但是两种操作的结果不约而同地都是这样的：

>>> file
>>>[]

我很纳闷，这个办法用在其他网页都没出过问题，怎么一到这里就提取不了了呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
罗家马德里球迷 2019-03-19 23:41
关注
问题已被解决，原因应该是：
1、模糊定位不准确，应尽量寻找临近且稳定的标签；
2、详细定位不可靠，尤其是
标签，一般认为在xpath可直接忽视，因为网页源代码往往原来是没有此类标签的，仅仅是网页生成后才出现。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

为什么xpath()方法就提取不了a标签中的href属性内容呢？ list python 数据挖掘
2019-03-15 23:43

回答 3 已采纳问题已被解决，原因应该是： 1、模糊定位不准确，应尽量寻找临近且稳定的标签； 2、详细定位不可靠，尤其是标签，一般认为在xpath可直接忽视，因为网页源代码往往原来是没有此类标签的，仅仅是网页生成
用selenium_xpath提取多个div下的a标签中href python selenium 有问必答
2021-11-08 21:20

回答 1 已采纳类似这样 .find_elements_by_xpath('//div[@class="dual-col"]/div/a/@href') 如有帮助，望采纳！谢谢!
为什么同样的xpath路径在xpath中和pycharm中显示的内容不一样 python 有问必答
2022-08-09 09:00

回答 4 已采纳第二张图明显题主是开发工具审核dom进行查看，这个并不是源代码，审核dom得到的html代码有可能被js修改过，而request之类得到的是源代码下面这种才叫源代码，src是默认的加载等待图片，实际
python爬虫xpath提取数据_Python爬虫之各种数据提取方法（xpath、lxml、jsonpath、re）...
2020-11-23 03:04

weixin_39830917的博客节点,属性,元素,语法,数据Python爬虫之各种数据提取方法（xpath、lxml、jsonpath、re）二、数据提取在发送请求获取响应之后，可能存在多种不同类型的响应内容；而且很多时候，我们只需要响应内容中的一部分数据。1 ...
xpath如何获取同级两个不同名称标签下的内容呢？爬虫
2022-07-13 10:40

回答 2 已采纳分开爬取吧，然后写个循环对文本进行拼接这是最简单的，对整个header更麻烦
Xpath无法定位含a标签的span中的任意元素 html python 有问必答爬虫
2021-12-25 14:09

回答 1 已采纳 from lxml import etree con = """<html> <body><span> <img src="xxx" alt="xx
为什么XPath找不到标签？ php xml
2017-07-04 19:00

回答 1 已采纳 Well, you query is almost correct. You have just forgotten putting last closing "]" char. It ough
Python爬虫——使用XPath和lxml库解析HTML
2022-05-28 13:45

Mount256的博客文章目录0 安装 XPath Helper 插件1 XPath 语法1.1 节点1.2 谓语2 lxml 库使用实例2.1 解析字符串为 HTML2.2 获取 div 标签2.3 获取某个指定的 div 标签2.4 获取属性为 id='even' 的 div 标签2.5 获取标签下的属性值...
python使用xpath提取属性值不完整 python 爬虫
2022-05-30 23:15

回答 2 已采纳不知道是不是有个逗号的原因，然后把后面给截断了，可以试试正则去提取 import requests,re url = 'https://www.renren.com/login' rep=reque
python如何用xpath取两个标签之间的内容 python 爬虫
2022-05-18 17:43

回答 3 已采纳 //span[text()="名字:"]/following::a[position()<count(//span[text()="名字:"]/following::a)-count(//spa
我用xpath提取标签属性内容时，一直给我返回的时空列表后端
2021-11-03 10:02

回答 1 已采纳它的src写的“ no Spiders are not allowed to crawl!”，做了反爬虫处理的！
一个Python爬虫案例，带你掌握xpath数据解析方法！
2022-04-29 11:28

菜鸟学Python的博客文章目录xpath基本概念xpath解析原理环境安装如何实例化一个etree对象：xpath(‘xpath表达式’)xpath爬取58二手房实例爬取网址完整代码效果图xpath图片解析下载实例爬取网址完整代码效果图xpath爬取全国城市名称实例...
使用xpath从background-image样式属性中提取值 php
2017-11-01 05:47

回答 1 已采纳 1) You lost quotes wrapping xpath - it's string. 2) with dom xpath, query returns set of nodes w
【人工智能】Python常用的两种爬虫的方式正则表达式、XPath
2019-04-19 17:23

沙振宇的博客正在学习python的爬虫，于是爬了一下现在自己的CSDN博客的个人信息。本文讲解了我利用Python3爬取CSDN个人信息的...这篇文章中提过。只不过那篇文章讲解的是利用Scrapy框架去爬，本文讲的是直接用xpath模块的一种效果。
在Scrapy中如何利用Xpath选择器从网页中采集目标数据——详细教程（下篇）
2020-10-24 08:38

Python进阶者的博客 /小结/ 本文基于Xpath理论基础，主要介绍了Scrapy爬虫框架中利用Xpath选择器提取某个网页中目标数据的方法，结合scrapy shell进行调试，得到调优的表达式，写入爬虫文件中去，希望对大家的学习有帮助。想学习更多...
没有解决我的问题, 去提问

悬赏问题

¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！

为什么xpath()方法就提取不了a标签中的href属性内容呢？

3条回答 默认 最新

悬赏问题

3条回答默认最新