问题已被解决,原因应该是:
1、模糊定位不准确,应尽量寻找临近且稳定的标签;
2、详细定位不可靠,尤其是
为什么xpath()方法就提取不了a标签中的href属性内容呢?
我的代码是这样的:
方案一(详细版):
file = response.xpath('//*[@id="main-xm-content"]/table/tbody/tr[2]/td/table/tbody/tr[3]/td/table/tbody/tr/td/table/tbody/tr[3]/td[2]/a/@href').extract()
方案二(精简准确版):
file = response.xpath(''//div[@id="main-xm-content"]/table//table//table//table//a//@href')
网页结构大致是这样的:
<table width="900" border="0" cellspacing="0" cellpadding="0">
<tbody>
<tr>...</tr>
<tr>...</tr>
<tr>
<td width="25"> </td>
<td height="20">
<a href="this_is_a_link.gif">这是文本内容.pdf</a>
</td>
</tr>
</tbody>
</table>
但是两种操作的结果不约而同地都是这样的:
>>> file
>>>[]
我很纳闷,这个办法用在其他网页都没出过问题,怎么一到这里就提取不了了呢?
- 点赞
- 写回答
- 关注问题
- 收藏
- 复制链接分享
- 邀请回答
3条回答
为你推荐
- 关于使用xpath解析数据返回空列表
- python
- 1个回答
- python爬虫中用xpath总是获取不到内容,希望大家帮我看看这两个网页中所需内容如何定位?谢谢~
- python
- 2个回答
- 为什么xpath()方法就提取不了a标签中的href属性内容呢?
- 数据挖掘
- list
- python
- 3个回答
- 求助,python 解析爬取的网页源码中的json部分
- 网页源码
- 2个回答