2 u011413463 u011413463 于 2016.04.19 21:57 提问

java如何解析含有html内容的xml文件

是这样的,现在有个xml文件,实际上是个只有头部是xml标签的文件,内容主体是html写成的,现在想要解析这个xml文件,提取其中的数据,不知该用何种方法。
试过dom4j和jsoup,这两个一个适合用来解析纯xml文件,一个适合解析纯html文件,但是不知如何解析嵌套在xml文件里的html文件。这是我要解析的xml文件截图一部分:
图片说明

这是xml文件的一部分:
<?xml version="1.0"?>

-

-


……


请各路大神指点迷津。

5个回答

CSDNXIAOD
CSDNXIAOD   2016.04.19 22:02

java解析xml文件获取节点内容
----------------------biu~biu~biu~~~在下问答机器人小D,这是我依靠自己的聪明才智给出的答案,如果不正确,你来咬我啊!

devmiao
devmiao   Ds   Rxr 2016.04.20 05:52
baidu_33497625
baidu_33497625   2016.04.20 11:26

这个有好几种方法的,可以用dom4j,可以用sax,也可以用jdom;这几种方式各种特点,你需要根据业务去判断用哪个

w172087242
w172087242   Ds   Rxr 2016.04.20 14:34

需要先从html的整体文本中正则捕获出xml文件,然后才能选用dom4j之类的解析器进行解析

kyomiang
kyomiang   2016.04.20 15:05

Elements urlem = dom.getElementsByTag("model")
e.select("[salesnum=14609]").attr("date")
jsoup 不知道行不行。

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
如何解析网页中xml文件里的内容到自己的html页面中
1、如何解析网页中xml文件里的内容到自己的html页面中? 2、全部文件放在服务器的启动目录下:../htdoc
读取XML当中的HTML标签读取XML当中的HTML标签
首先我在这提供个最简单的xml例子, 当中我使用了CDATA... 因为CDATA会把范围内的符号转换为HTML的标签 &lt; 和 &gt; 不然读取的时候遇到CDATA[这是第一行这是第二行]]> 再来到Flash中建立一个动态文本(myText), 然后在第一帧输入以下代码: myText.html = true; //动态文本使用html标签xmlLoader = new XML();
如何解析本地和线上XML文件获取相应的内容
一、使用Dom解析本地XML 1、本地XML文件为:test.xml<?xml version="1.0" encoding="UTF-8"?> <Books> <Book id="1"> <bookName>think in java</bookName> <bookAuthor>张三</bookAuthor> <bookISBN>家</bookISBN> <
在html中解析xml文件(javascript 读取)
George John Reminder Don't forget the meeting! Simth 以上是note.xml的内容。 下面note.html是解析note.xml的内容: function parseXML(){ try{ xmlDoc= new ActiveXObject("Mi
java解析XML文件
java解析XML文件java解析XML文件java解析XML文件java解析XML文件java解析XML文件java解析XML文件
使用dom4j去掉Xml文件中注释内容的解决办法
以下是我使用dom4j在解析Xml文件时,去掉节点注释的文本以及去掉注释的节点的办法和一些理解,贴出来,供大家参考。以下是代码: /** * Xml文档对象去掉注释后输出字符串 * @return */ public String documentToSt
java解析xml文件获取xml里面的信息
true 2014-02-07T10:05:11.1613672+08:00 860806025604744 HTC 要是想解析上面xml里面的信息:使用的dom4j.jar包!!! 下面是我自己写的方法!测试后没问题! import java.io.FileInputStream; import java.io.IOException; import java.io.InputStr
Hadoop如何读取复杂格式的文件,例如XML、HTML、图像等,附源码
Hadoop读取复杂格式的文件是个大问题,之前除了sequencefile和textfile,就不能支持其他的文件了,现在我改写了这个FileFormat和RecordReader,不光可以支持XML,也同样可以使用HTML,图像(复杂格式的也可以支持)等。整个分为4个文件 F
java使用Jsoup解析html字符串
java使用Jsoup解析html字符串
java中四种方式解析XML文件
1.DOM方式解析XML Dom解析是将xml文件全部载入到内存,组装成一颗dom树,然后通过节点以及节点之间的关系来解析xml文件,与平台无关,java提供的一种基础的解析XML文件的API,理解较简单,但是由于整个文档都需要载入内存,不适用于文档较大时。 2.SAX方式解析XML 基于事件驱动,逐条解析,适用于只处理xml数据,不易编码,而且很难同时访问同一个文档中的多处不同数据