我的代码是这样的:
方案一(详细版):
file = response.xpath('//*[@id="main-xm-content"]/table/tbody/tr[2]/td/table/tbody/tr[3]/td/table/tbody/tr/td/table/tbody/tr[3]/td[2]/a/@href').extract()
方案二(精简准确版):
file = response.xpath(''//div[@id="main-xm-content"]/table//table//table//table//a//@href')
网页结构大致是这样的:
<table width="900" border="0" cellspacing="0" cellpadding="0">
<tbody>
<tr>...</tr>
<tr>...</tr>
<tr>
<td width="25"> </td>
<td height="20">
<a href="this_is_a_link.gif">这是文本内容.pdf</a>
</td>
</tr>
</tbody>
</table>
但是两种操作的结果不约而同地都是这样的:
>>> file
>>>[]
我很纳闷,这个办法用在其他网页都没出过问题,怎么一到这里就提取不了了呢?