Htmlcleaner+Xpath一些支持问题

用xpath爬取html与xml文件非常方便，java可以使用htmlcleaner来读取xpath.
但是htmlcleaner对xpath不是全部支持的。比如xpath轴，htmlcleaner就不识别，而且
模糊查询了，"||"多个入径,"::",还有很多方便的符合都不支持。这有什么解决的方法吗？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2017-03-11 14:59
关注
https://my.oschina.net/u/232879/blog/78076

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python+selenium+xpath如何定位网页table表格中的数据 python selenium 有问必答爬虫
2022-02-25 12:44

回答 2 已采纳使用last()定位最后一个tr节点，再用索引获取。示例： from lxml import etree with open('a.html','r',encoding='utf-8') as f:
PHP + XPath在指定日期之间获取节点值 php xml
2016-06-23 16:55

回答 3 已采纳 You can parse data and add to an array, as a stdClass or whatever you like most: <?php $xml =
xpath获取路径的一些问题
2018-01-21 06:52

回答 4 已采纳结合class来使用嵌套查询，不要这样用，这样用多了会吧你弄蒙的。
WebMagic介绍
2018-02-09 17:10

刘五分的博客核心部分(webmagic-core)是一个精简的、模块化的爬虫实现，而扩展部分则包括一些便利的、实用性的功能。WebMagic的架构设计参照了Scrapy，目标是尽量的模块化，并体现爬虫的功能特点。这部分提供非常简单、灵活的...
xpath拼接嵌套问题 python selenium
2022-04-14 21:12

回答 1 已采纳 driver.find_element(by=By.XPATH, value='//input[@id="checkbox_0"]/../../div[2]') #结构不变可以试试这个，并且in
关于xpath爬虫遇到的问题 python 其他爬虫
2023-03-13 17:09

回答 5 已采纳 titles=html.xpath('//*[@class="title"]/a//text()') abstracts=html.xpath('//*[@class="abstract"]') r
Selenium 模拟浏览器xpath取值问题 python selenium
2018-08-14 13:57

回答 6 已采纳 ![图片说明](https://img-ask.csdn.net/upload/201808/15/1534314647_27460.png) **在使用selenium时有个大坑！ driver.
Webmagic简单的讲解
2017-05-10 17:04

yinbucheng的博客基本的爬虫 ...在WebMagic里，实现一个基本的爬虫只需要编写一个类，实现PageProcessor接口即可。这个类基本上包含了...同时这部分还会介绍如何使用WebMagic的抽取API，以及最常见的抓取结果保存的问题。实
xpath获取网站信息时遇到问题 python
2021-12-30 20:05

回答 3 已采纳我是这样从把xpath获取的数据拿出来的
xpath定位获取数据为空的问题 python 爬虫
2023-03-23 14:13

回答 1 已采纳 https://blog.csdn.net/superwfei/art
关于xpath返回空列表的问题 python 有问必答
2021-12-06 18:59

回答 1 已采纳你这个网页中的内容是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通过F12控
WebMagic-使用入门
2017-02-22 10:44

平平同学爱学习的博客客观的说，它比XPath写起来要简单一些，但是如果写复杂一点的抽取规则，就相对要麻烦一点。正则表达式正则表达式则是一种通用的文本抽取语言。 page.addTargetRequests(page.getHtml().links()....
python的xpath问题 python 有问必答
2022-04-06 14:17

回答 4 已采纳 import requests from lxml import etree url = "http://finance.sina.com.cn/zl/china/2022-04-06/zl-im
WebMagic爬虫框架学习
2016-12-13 10:43

励志不回头的博客 Saxon是一个XPath、XSLT的解析工具，webmagic依赖Saxon来进行XPath2.0语法解析支持。 1.3.3 webmagic-avalon webmagic-avalon 是一个特殊的项目，它想基于WebMagic实现一个产品化的工具，涵盖爬虫的创建、爬虫...
java 爬虫 WebMagic-使用入门
2016-10-11 16:30

yc..的博客客观的说，它比XPath写起来要简单一些，但是如果写复杂一点的抽取规则，就相对要麻烦一点。正则表达式正则表达式则是一种通用的文本抽取语言。 page.addTargetRequests(page.getHtml().links().regex(“...
没有解决我的问题, 去提问

悬赏问题

¥40 复杂的限制性的商函数处理
¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码

Htmlcleaner+Xpath一些支持问题

1条回答 默认 最新

悬赏问题

1条回答默认最新