Htmlcleaner+Xpath一些支持问题

用xpath爬取html与xml文件非常方便,java可以使用htmlcleaner来读取xpath.
但是htmlcleaner对xpath不是全部支持的。比如xpath轴,htmlcleaner就不识别,而且
模糊查询了,"||"多个入径,"::",还有很多方便的符合都不支持。这有什么解决的方法吗?

1个回答

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
htmlCleaner 结合xpath转为html为xml并读取
import java.io.IOException; import java.net.URL; import org.htmlcleaner.CleanerProperties; import org.htmlcleaner.HtmlCleaner; import org.htmlcleaner.PrettyXmlSerializer; import org.htmlclea
htmlcleaner使用及xpath语法初探
转载:http://blog.csdn.net/reesun/article/details/8021201 一、HtmlCleaner使用: 1、HtmlCleaner HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大
htmlcleaner 使用示例
原文出处:http://blog.chenlb.com/2008/11/htmlcleaner-use-demo.html 编程的时候,有时数据源从html来。那就要对html分析提取数据。好在java社区里有好有相关库来解析html,经使用比较:个人 觉得 htmlcleaner 比 htmlparser 好用。htmlcleaner 的 xpath特好用。也可能我对htmlparser不熟悉
htmlcleaner+xpath抓取网页数据
下载htmlcleaner的jar包!用XPath定位元素位置! 运行以下代码! package com.yhby.test; import java.io.IOException; import java.net.MalformedURLException; import java.net.URL; import org.htmlcleaner.HtmlCleaner; import o
htmlcleaner-2.8.jar
Java解析HTML利器 htmlcleaner2.8
HtmlCleaner2.1API参考手册.chm
HtmlCleaner2.1API参考手册.chm HtmlCleaner是一个把html解析为XML文档的Java程序库。 我试过,这是java世界中最快、最好、最小、最强大的Html解析库。 可以解析为DOM对象,然后使用其他的xml分析器进行分析。
htmlcleaner html解析器
htmlcleaner html解析器htmlcleaner html解析器
HTMLCleaner 的使用心得.
<br /> <br />           做项目的时候,有时数据源从html来。那就要对html分析提取数据。好在java社区里有好有相关库来解析html,经使用比较:个人觉得 htmlcleaner 比 htmlparser 好用。htmlcleaner 的 xpath特好用。也可能我对htmlparser不熟悉。<br /> <br />             htmlcleaner 下载地址:htmlcleaner2_1.jar 源码下载:htmlcleaner2_1-all.zip<br
IE不支持xpath
所以在IE中var nodes=xml.evaluate(path, xml, null, XPathResult.ANY_TYPE,null); 报“XPathResult”未定义 而且IE不支持W3C标准 W3C的原话: 这里有一个问题。上面的例子在 IE 和其他浏览器中输出不同的结果。 IE5 以及更高版本将 [0] 视为第一个节点,而根据 W3C 的标准,应该是 [1]。
xml解析-dom4j对XPATH的支持
用dom4j对xml进行解析已经比sax方式简洁了很多,用起来很方便,但是在获取某个元素时依然有点麻烦,要一层一层的获取,这样很麻烦,换好dom4j提供了对XPATH的支持,这里简单介绍一下。 以下面这个xml文件为例:<?xml version="1.0" encoding="UTF-8"?> <person> <p1 id="111"> <name>zhangsan</name
最好的网页解析类库HtmlCleanner
 介绍 今天给大家推荐一款最好的网页解析类库—HtmlCleaner。至少是目前为止最好的Java解析库。         与HtmlCleaner结缘是在年初的时候,因为一项工作需要解析Html页面,所以我在网上遍寻Html解析库。网上口碑极佳的是HTML Parser这个库,我试了一下,速度极慢,处理一个比较大的网页需要几百毫秒,更要命的是,有些网页解析不了!经过千辛万苦,
让你的Jsoup支持Xpath
Xpath是专业的xml结构化文档的查询语言,语法功能强大,本文不涉及xpath语法教程。 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据,但是选取某个元素时还是没有xpath那么简单直接,而且xpath带了很多选择库。 然而遗憾的时,jsoup并不
dom4j及xpath jar包
Dom4j 解析XML 所使用的jar包,及添加XPath 支持所需要的 jar 包。具体使用可看我博客
支持xpath的高效xml解析库源代码
PUGIXML是一个支持xpath的高性能XML解析库,C++源代码
HtmlCleaner
HtmlCleaner是一个开源的Java语言的Html文档解析器。 HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。
dom4j和xpath必备jar包
dom4j和xpath必备jar包对xml文档进行解析的必须jar包!
xml解析之dom4j对XPath的支持
  用dom4j对xml进行解析已经比sax方式简洁了很多,用起来很方便,但是在获取某个元素时依然有点麻烦,要一层一层的获取,如果文件过大,会很麻烦,还好dom4j提供了对XPATH的支持, XPath是使用路径表达式来获取XML文档的节点和节点集,选取节点时使用的表达式是一种路径表达式。节点是通过路径(path)或者步(steps)来选取的。   一、XPath的常用形式   /A...
JsoupXpath实例(Jsoup对Xpath的支持)
话不多说直接上代码,JsoupXpath在jsoup(就是JS函数风格)上多了Xpath风格调用
dom4j用到的jar包 xpath用到的jar包
使用dom4j解析xml时用到的jar包dom4j-1.6.1.zip xpath用到的jar包jaxen-1.1-beta-6.jar
网页爬虫demo 带htmlcleaner jar包
一个最简单的htmlcleaner扒网页内容,demo中以58种的一个页面为例,xpath请通过chrome浏览器控制台选中需要的内容后右击选择复制xpath 不喜勿喷,资源免费下载
xml解析神器PK,花落谁家?Jsoup Or Xpath?
原文:点击打开链接 今天简单测了下使用Jsoup和Xpath解析XML的文件的方便程度,两者都可以完成解析,提取特定的元素或节点内容,但明显Jsoup更胜一筹,我们都知道Xpath是专业的xml结构化文档的查询语言,虽然语法功能强大,但是代码还是比较繁琐。虽然jsoup的出现,并不是专门用来解析XML使用的,但是使用jsoup这个轻巧的类库,我们可以完成网页抓取,HTML解析,模拟登陆等一些功能
htmlcleaner
HTML网页解析,非常好的jar包!方便开发。
html解析器比较
html的解析器很多,常用的有htmlparser和jsoup,jsoup可以看做是htmlparser的简化,因为其强大的选择器使得获取元素非常的方便,有点类似Jquery中的选择器(可以直接拿),而htmlparser结构简单,功能强大,但是比较难上手,而且很久没有更新,所以现在越来越多的人推荐使用Jsoup。当然,还有很多其他的解析器,下面给出一些链接进行介绍。 HTM
用HtmlCleaner抓取新闻
HtmlCleaner 用来做html的网页分析 能够做到过滤一些标签  提取一些标签 他能够利用xpath来进行筛选,非常方便。 这里简单的做点介绍 首先导入jar包 然后建立对象HtmlCleaner  根据URL和charset来分析出网页所有的标签。 然后筛选我们想要的信息 Demo如下: //HtmlCleaner Demo //读取了http://w
htmlcleaner-2.2.4.jar
网络爬虫htmlcleaner的jar包
火狐浏览器旧版本(可安装firebug、Xpath插件等)
https://archive.mozilla.org/pub/firefox/releases/39.0b2/win64/zh-CN/
xpathTutorial.chm多语言完整版
XPath由W3C的XPath 1.0 标准描述.本教程通过实例来展示XPath的一些特性。 该文件是支持多种语言,包含中文、、
Xpath string()提取多个子节点中的文本
&amp;amp;lt;div&amp;amp;gt; &amp;amp;lt;ul class=&amp;quot;show&amp;quot;&amp;amp;gt; &amp;amp;lt;li&amp;amp;gt;275万购昌平邻铁三居 总价20万买一居&amp;amp;lt;/li&amp;amp;gt; &amp;amp;lt;li&amp;amp;gt;00万内购五环三居 140万安家东三环&amp;amp;lt;/li&amp;amp;gt;
Chrome_Xpath
写爬虫或做网页分析的人,因为在定位、获取xpath路径上花费大量的时间,甚至有时候当爬虫框架成熟之后,基本上主要的时间都花费在了页面的解析上。没有这些辅助工具的日子里,只能通过搜索html源代码,定位一些id去找到对应的位置,非常的麻烦,chrome的xpath辅助插件就是来帮助我们的。
网络爬虫框架的搭建以及使用HttpClient抓取解析网页的详细步骤
我们首先使用eclipse中的导入maven的方法搭建爬虫框架1.创建如图结构的文件夹(pom.xml文件自行百度创建) 2.导入Existing Maven Project ->生成如图所示项目 使用HttpClient抓取网页1.首先要配置pom.xml文件,需要将HttpClient包加载进来 ->访问www.mvnrepository.com ->搜索HttpClient,
爬虫XPath库的使用(Python)
XPath的使用:    bookStore.xml文档内容如下:    &amp;lt;?xml version=&quot;1.0&quot; encoding=&quot;utf-8&quot; ?&amp;gt; &amp;lt;bookstore&amp;gt; &amp;lt;book&amp;gt; &amp;lt;title lang=&quot;eng&quot;&amp;gt;Harry Potter&amp;lt;/title&amp;
lxml 模块下 xpath 的使用
为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言相对于正则表达式 ,xpath作为一种为了解析xml的一门语言,用于对网页的解析,自然十分有效率。导入方式 from lxml import etree // 用于建立初始根节点 / 用于向下层寻找 @xxx 用于提取属性内容 @ text() 用于提取文本内容 xpath路径可以手动寻找 也
htmlcleaner2.2
htmlcleaner及其所依赖jar包
selenium定位页面元素时xpath定位技巧(一)
对于定位页面元素,xpath是最强大的一种方式,优点是稳定而且万能。但是能不能用好又是另外一回事,用不好的话实在是一个坑。废话不多说,进入主题: 如上图,我们要定位“_省公司”前面的折叠按钮,xpath怎么写?很明显,这里的id='_easyui_tree_1'并不是一个很放心的固定值,tag name就更离谱了。可能id='ltree'还能靠谱点,但是能不用id就不用id(除了登录页面
简单也许更好——关于HTMLCleaner保存的问题
做一个类似爬虫的小品,要从网页上爬下数据来,处理后,保存。 试用了HTMLParser、NekoHtml、JTidy发现效果都不好,尤其是网页书写不规范的时候。 最后,选定了HTMLCleaner。几乎可以搞定所有网页。   用起来也很简单,网上大部分中文介绍都会有类似这样的代码示例:   TagNode root = cleaner.clean(text or url);  然...
Jaxb 绑定学习探索(二.进阶篇)
Jaxb 绑定学习探索(二.进阶篇) 简介 自定义jaxb绑定 简介上一篇文章我们已经介绍了如何使用maven 插件把xsd转化为java bean,而这篇文章主要是简析jaxb bindings中的内容。是对于oracle官网的使用手册的翻译解析。自定义jaxb绑定本节刚开始讨论您可以对JAXB绑定和验证方法进行自定义的表面。有关更多信息,请参阅JAXB规范(http://java.sun.com
基本的python爬虫(pyspider)
自己的心得体会,有些的不对的地方,请大牛指正
使用requests和Xpath抓取带标签的内容
今天抓取数据页面很多跳转,然后使用requests单独获取该链接抓取数据,但是需要的数据是要带标签的 使用etree解析文本为HTML之后,连带用xpath匹配的数据都是Element类型 需要将它转为需要的带标签的数据内容,如:     data = requests.get(url, headers=headers) response = etree.HTML(data.tex...
JsoupXpath
整理JsoupXpath( https://github.com/zhegexiaohuozi/JsoupXpath)是一款纯Java开发的使用xpath解析提取html内容的解析器,xpath语法分析与执行完全独立,html的DOM树生成借助Jsoup,故命名为JsoupXpath. 为了在java里也享受xpath的强大与方便但又苦于找不到一款足够强大的xpath解析器,故开发了JsoupXpath。JsoupXpath的实现逻辑清晰,扩展方便, 支持几乎全部常用的xpath语法。
浏览器中的XPath支持
因为XML用于处理多种数据,所以必须有一种可以在XML代码中定位数据的方式。这个问题的答案就是XPath,它是专门用于定位匹配模式的一个或多个节点的小语言。尽管关于XPath深入的讨论已经超出本书的范围,不过还是要进行一些简单的介绍。15.2.1  XPath简介每个XPath表达式都有两部分:一个上下文节点和一个节点模式。上下文节点提供了节点模式起始的位置。节点模式是由一个或多个节点选择
HTMLcleaner
Java的HTML开源解析框架,可以用来提取Html文档里面的特定元素
jaxp的api的查看
jaxp的api的查看 ** jaxp是javase的一部分 ** jaxp解析器在jdk的javax.xml.parsers包里面             ** 四个类:分别是针对dom和sax解析使用的类             *** dom:                           DocumentBuilder:解析器类                      ...
解决uiautomatorviewer中添加xpath的方法
下载github上开源jar包  :https://github.com/lazytestteam/lazyuiautomatorviewer也可以直接在csdn上下载: http://download.csdn.net/detail/kaka1121/9568123,如果没有积分的话,可以直接找我要jar包安装和使用:1. 将所有jar包拷贝到%SDK%/tools\lib目录下,覆盖原来的ui...
XPathTutorial中文版
XPath由W3C的XPath 1.0 标准描述.本教程通过实例来展示XPath的一些特性.
uiautomatorviewer可以直接显示xpath
这个我也是在GitHub上面找到的,我使用过的,需要的可以下载使用!
pugixml 一个xml解析库 简单快速, 支持XPath表达式, 感谢作者
转自:http://blog.csdn.net/jdzfjfhnui/article/details/6672532 只是简单的翻译了pugixml文档,暂时未翻译XPath部分. /* 1.对象模型 pugixaml存储XML数据为DOM风格,整个xml文档(文档结构和元素数据)被存储在内存中作为一棵树.这棵树可以从字符流(文件,字符串,C++ I/O流)中加载,可以
使用DOM与XPATH解析一个Document对象的一般过程
使用DOM与XPATH解析一个Document对象的一般过程: DocumentBuilderFactory factory =DocumentBuilderFactory.newInstance(); factory.setNamespaceAware(true); // never forgetthis! DocumentBuilder builder =factory.newDocu
XPath详解,总结
经常在工作中会使用到XPath的相关知识,但每次总会在一些关键的地方不记得或不太清楚,所以免不了每次总要查一些零碎的知识,感觉即很烦又浪费时间,所以对XPath归纳及总结一下。 在这篇文章中你将能学习到: XPath简介XPath 路径表达式详解XPath在DOM,XSLT及XQuery中的应用 XPath简介 XPath是W3C的一个标准。它最主要的目的是为了在XML1.
Xpath 简单的标签搜索
工具Python3版本lxml库【优点是解析快】HTML代码块【从网络中获取或者自己杜撰一个】requests【推荐安装,从网页上获取网页代码练手,再好不过了】讲解网页代码都是成对的标签,基础结构如下&amp;lt;!DOCTYPE html&amp;gt; &amp;lt;html lang=&quot;en&quot;&amp;gt; &amp;lt;head&amp;gt; &amp;lt;!--网页头部信息--&amp;gt; &amp;lt;title&amp;gt;网...
XPath 常用函数
XPath函数 函数定义    函数名  返回类型(不能用void)   参数类型 常用函数  节点集函数      last() 返回当前上下文中的最后一个节点的位置号数。    position() 返回当前节点的位置的数字,位于第多少个。   count(node-set) 返回节点集node-set中的节点数。   id(mark) 根据在DTD中声明为ID类型的标识符选择元素
相关热词 c# 时间比天数 c# oracle查询 c# 主动推送 事件 c# java 属性 c# 控制台 窗体 c# 静态类存值 c#矢量作图 c#窗体调用外部程式 c# enum是否合法 c# 如何卸载引用
立即提问