2 urartu urartu 于 2014.02.21 16:16 提问

htmlparser怎样获取标签中的部分文字

各位大神,我想用java写个小工具,可以把论坛中连载的帖子中楼主发言的部分转为txt保存,目前在处理网页时遇到了点问题。

网页中部分代码:

<div class="lz">
楼主帖子内容
<div class="pinglun">
本楼的回复内容
</div>
</div>

我想获取楼主帖子内容内容怎么办?我可以单独获取整个div节点中的文字,但是这样就需要剔除本楼的回复内容,怎样可以直接获取楼主帖子内容?或者怎样剔除也行。

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
大数据处理之道 (htmlparser获取数据<一>)
一:简介 (1)HTML Parser是一个用于解析Html的Java的库,可采用线性或嵌套两种方式。主要用于网页的转换或提取,他有一些特性:过滤器filter,遍历器visitors,通常的标签tagName和易用的JavaBeans。它是一个快速,健壮,并严格测试过的组件。 (2)个人理解:HTMLParser遍历了网页的内容以后,以树(森林)结构保存了结果,各个节点代表HTML中的标签和
用html parser 来获取HTML网页中Form的各个属性名 值组
 1.下载HtmlParser包 地址:http://prdownloads.sourceforge.net/htmlparser/htmlparser1_6_20060610.zip?download2、class FormElements { private String _elementName; private String _elementValue; private Str
Java使用HtmlParse提取标签中的值
Java使用HtmlParse提取标签中的值☆代码示例:代码块语法遵循标准markdown代码,例如:package cas;import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.filters.StringFilter; im
JAVA 通过HtmlParser获取指定的tag
package IBMSpider; import org.htmlparser.Parser; import org.htmlparser.filters.TagNameFilter; import org.htmlparser.nodes.TagNode; import org.htmlparser.util.NodeList; import org.htmlparser.util.Pars
htmlparser 处理标签的一个bug
众所周知,Htmlparser本身有一些小bug,而且也有三年没更新了。所以现在基于java的信息抽取多转向NekoHtml。不过Htmlparser本身还是有不少优点,主要是扩展性强,其利用的设计模式值得学习。由于时间的关系,现在项目还是使用Htmlparser,以后有时间会对nekohtml进行研究。    今天遇到的bug来自于对的解析。假如一个网页的部分代码如下,那么HtmlParser是
jQuery获取标签里面的某个文本内容
html> html lang="en"> head> meta charset="UTF-8"> title>Titletitle> head> script type="text/javascript" src="jquery-2.1.1.js">script> body> style> .divFrame{ width: 260px;border: 1px sol
JS和JQ中获取标签里的内容方法总结
JQ获得内容 - text()、html() 以及 val() 三个简单实用的用于 DOM 操作的 jQuery 方法: text() - 设置或返回所选元素的文本内容 html() - 设置或返回所选元素的内容(包括 HTML 标记) val() - 设置或返回表单字段的值 参考:http://www.runoob.com/jquery/jquery-dom-get.html
HtmlParser提取网页中的纯文本信息-java
 from:http://perfectlife.javaeye.com/blog/366084HtmlParser提取网页中的纯文本信息文章分类:Java编程 关键字: 如何使用htmlparser提取网页中的纯文本信息    HTMLParser 一个解析web页面的开源类库。     准备学习下搜索方面的技术,就学习了些网络爬虫的知识。最近一直在一个点上困惑,如何提取一个网页上的纯文本信息。要使用正则表达式的话呢,需要考虑很多因素,而且标签也太多,不是很方便,效果也不好。就准备利用开源包,最后选择了H
DOM4J jar包 获取xml文件中的标签内容
// 1.导入DOM4J jar包         // 创建解析器对象         SAXReader reader = new SAXReader();         Document doc = reader.read(new FileInputStream("students.xml"));         // 获取根标签对象         Element rootEl
Java解析HTML之HTMLParser使用与详解
转自http://free0007.iteye.com/blog/1131163 HTMLParser具有小巧,快速的优点,缺点是相关文档比较少(英文的也少),很多功能需要自己摸索。对于初学者还是要费一些功夫的,而一旦上手以后,会发现HTMLParser的结构设计很巧妙,非常实用,基本你的各种需求都可以满足。     这里我根据自己这几个月来的经验,写了一点入门的东西,希望能对新学习H