Python2 xpath 层次关系中间层数不定能不能通配

python 2.7.13， lxml是我命令行安装的应该就是最新了。
我想爬某个论坛里的动画种子，大体思路：
（1）打开 http://bbs.opfans.org/forum.php?mod=forumdisplay&fid=37 会有1个表，读每项的链接。

（2）再打开每1项，进入寻找 torrent 的链接。
经观察，需要的链接是在 ignore_js_op 以下的 a 里，但是中间具体夹了几层不一定，外面的层次关系也不一定，所以我就寻找 ignore_js_op 。

之前匹配不到的原因找到了，经实验发现1个通配符只能配1层。如果是中间层数不定的情况能不能通配？

（对于这个例子我用的是contains()和and，参照http://python.jobbole.com/84689/?utm_source=group.jobbole.com&utm_medium=relatedArticles）

代码：

# -*- coding:utf-8 -*-
import urllib, re, urllib2, lxml
from lxml import etree

'''
Download ONE PIECE torrent.
'''

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read().decode('gbk')
    #print page.info()
    page.close()
    return html

HostName = r'http://bbs.opfans.org/'
Html1 = getHtml(HostName + r"forum.php?mod=forumdisplay&fid=37")
Xpath1 = r'//body/div/div/div/div/div/div/form/table/tbody/tr/th/a/@href'
Xpath2 = r'//ignore_js_op/*/a[@href]'

Content1 = etree.HTML(Html1).xpath(Xpath1)
for Line1 in Content1:
    if re.match(r'forum\.php.+', Line1):
        NewLink = HostName + Line1
        print NewLink
        Html2 = getHtml(NewLink)
        Content2 = etree.HTML(Html2).xpath(Xpath2)
        for Line2 in Content2:
            print HostName + Line2.xpath(r'./@href')[0]
            print Line2.xpath(r'./text()')[0]

结果：

http://bbs.opfans.org/forum.php?mod=viewthread&tid=93&extra=page%3D1
http://bbs.opfans.org/forum.php?mod=viewthread&tid=39&extra=page%3D1
http://bbs.opfans.org/forum.php?mod=viewthread&tid=3939&extra=page%3D1
http://bbs.opfans.org/forum.php?mod=attachment&aid=MjYwMXxlNWUyZjMwZHwxNTExODU1ODA3fDB8MzkzOQ%3D%3D
[OPFansMaplesnow][One_Piece][815][MP4].torrent
http://bbs.opfans.org/forum.php?mod=redirect&tid=3939&goto=lastpost#lastpost
http://bbs.opfans.org/forum.php?mod=viewthread&tid=3938&extra=page%3D1
http://bbs.opfans.org/forum.php?mod=redirect&tid=3938&goto=lastpost#lastpost
http://bbs.opfans.org/forum.php?mod=viewthread&tid=3936&extra=page%3D1
http://bbs.opfans.org/forum.php?mod=attachment&aid=MjU5OXxlYmNlYzc3ZXwxNTExODU1ODA3fDB8MzkzNg%3D%3D
[OPFansMaplesnow][One_Piece][814][MP4].torrent
http://bbs.opfans.org/forum.php?mod=viewthread&tid=3935&extra=page%3D1

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
你我渐行渐远 2017-11-29 16:01
关注
可以试一试其他的，例如正则或者beautifulsoup

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python Xpath获取的元素可以click 不能sendkeys python
2022-09-14 15:26

回答 1 已采纳定位元素错了，去定位这个input，而不是div：
python使用xpath提取属性值不完整 python 爬虫
2022-05-30 23:15

回答 2 已采纳不知道是不是有个逗号的原因，然后把后面给截断了，可以试试正则去提取 import requests,re url = 'https://www.renren.com/login' rep=reque
xpath爬取图片，得不到src ，python求解决 python 有问必答爬虫
2022-01-27 12:25

回答 4 已采纳图片是js解析出来的，xpath无效，数据在js变量里面，正则提取下数据用json.loads加载获取代码如下 import requests import re import json def
python xpath定位不到_Xpath定位方法深入探讨及元素定位失败常见情况
2021-03-17 02:40

weixin_39819138的博客一、Xpath定位方法深入探讨(1)常用的Xpath定位方法及其特点使用绝对路径定位元素。例如：driver.findElement(By.xpath("/html/body/div/form/input"))。特点：这个路径是从网页起始标签开始一直到要定位的元素的路径...
python3.10 xpath安装失败使用网上的办法无法解决，请求解答 python 有问必答
2022-01-11 23:14

回答 2 已采纳 xpath是用于对xml或html文档信息搜索工具，在python中是lxml的方法，只需pip 安装 lxml,就可以使用xpath来解析网页了。具体参考：https://zhuanlan.zhih
python爬虫xpath解析返回为空有什么解决方法吗 python 爬虫
2021-12-10 11:12

回答 1 已采纳为空的地方xpath主要是为了拿到什么数据，贴一下网页和要拿到的数据，帮你写一下xpath。上面图上的xpath那么长那么绝对路径，大概率拿不到数据的。
python如何用xpath取两个标签之间的内容 python 爬虫
2022-05-18 17:43

回答 3 已采纳 //span[text()="名字:"]/following::a[position()<count(//span[text()="名字:"]/following::a)-count(//spa
python爬虫xpath教程_python爬虫 xpath多标签怎么写(python xpath教程)
2020-11-29 16:00

weixin_39946029的博客 python爬虫 xpath多标签怎么写加上其他条件，或者用element s, link_txt,...或者有什么其他方法xpathpyquerybs4都可以,这几个的官网都有教程,自己先看看python selenium xpath 获取文本？html的内容： ...
python的xpath表达式无法获取文本 python 数据挖掘
2021-11-22 20:58

回答 2 已采纳表达式有问题，这个html源码你用xpath取得话是有两个值的，所以索引0是搜不到。正确写法应该是把0换成2
Python爬虫 xpath 列表为空 python 有问必答爬虫
2022-03-08 08:32

回答 2 已采纳第二个li的div下少了结束标签导致etree解析出错了少了div结束标签后，etree将建筑类别后的几点全部归类到第二li下了，改下面这样就可以了 import requests from lxm
Python selenium 2层对话框怎么定位确定按钮,xpath获取保存元素不对。 python selenium 有问必答
2021-09-08 11:46

回答 1 已采纳应该xpath的位置变了，你试试输出网页源码看看，或者改用class定位
python3 xpath_python3 selenium webdriver 元素定位xpath定位骚操作
2020-11-28 14:12

weixin_39907713的博客源文...在正式开始使用XPath进行定位前，我们先了解下什么是 XPath。XPath是XML Path的简称，由于HTML文档本身就是一个标准的XML页面，所以我们可以使用XPath的语法来定位页面元素。假...
为什么python中xpath的text ()一直报错 python
2022-11-04 09:12

回答 1 已采纳 xpath 定位不是这个吧？我用xpath是 //*[@id="su"]
【Python 爬虫】HTML结构和XPath的使用
2022-03-21 09:09

飝鱻.的博客高性能HTML内容解析HTML基础结构实现XPath从HTML源代码中提取有用的信息XPath的介绍库的安装XPath语法讲解XPath语句的格式标签1的选取可以省略的属性XPath的特殊情况使用谷歌浏览器来辅助构造XPath使用Beautiful ...
python 页面script xpath_Python中利用xpath解析HTML的方法
2020-12-24 00:46

weixin_39559369的博客在进行网页抓取的时候，分析定位html节点是获取抓取信息的关键，目前我用的是lxml模块(用来分析XML文档结构的，...目前在libxml2的网站上被推荐的python binding是lxml，也有beautifulsoup，不嫌麻烦的话还可以自己...
没有解决我的问题, 去提问

悬赏问题

¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛
¥15 请问Lammps做复合材料拉伸模拟，应力应变曲线问题
¥30 python代码，帮调试
¥15 #MATLAB仿真#车辆换道路径规划
¥15 java 操作 elasticsearch 8.1 实现索引的重建
¥15 数据可视化Python
¥15 要给毕业设计添加扫码登录的功能！！有偿

Python2 xpath 层次关系 中间层数不定能不能通配

1条回答 默认 最新

悬赏问题

Python2 xpath 层次关系中间层数不定能不能通配

1条回答默认最新