2 codeoneself CodeOneself 于 2016.04.27 17:42 提问

Jsoup解析图文遇到br问题。 5C

解析一个div中的文字和图片,如果只是文字还好,但是图片夹杂在文字中,现在想**按顺序**把每段文字和图片url存放在string数组中。

贴个网址:http://news.wtu.edu.cn/html/20120903/ff8080813929770c013932949ec80071.html

就是解析div=newtext中的内容。

不知道遇到br该怎么办,求教。

大号被禁言,只得用小号的5c来请大神帮帮忙。

1个回答

dongfeng9ge
dongfeng9ge   Ds   Rxr 2016.04.30 15:09

我想问**是什么字被屏蔽了?

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
Jsoup解析HTML时特殊标签的解析
HTML文件内容: 此处省略N行代码。。。 然后,  doc = Jsoup.parse(in, "UTF-8");   Document content = Jsoup.parse(doc.toString()); 1.Jsoup解析HTML,对自定义的标签无法正常解析,,采用select方法,只能得到前半部分,即.      采用getElementsB
JSoup解析html常见问题
之前写了一个关于抓所以取某个网站用户信息的程序,大量的用到了关于JSoup解析html的知识。并且其中也遇到了一些问题,这类问题在我们以后的开发过程中可能还有机会遇到,所以今天在这里对这块做个总结。 一.Jsoup如何根据url获得对应的网页Document文档 1.常见写法   doc=Jsoup.parse(new URL(url),4000);//参数2是连接超时设置,一旦超时
Jsoup解析网页源码时常用的Element(s)类
一、简介 该类是Node的直接子类,同样实现了可克隆接口。类声明:public class Element extends Node 它表示由一个标签名,多个属性和子节点组成的html元素。从这个元素中,你可以提取数据,可以遍历节点树,可以操纵html。   二、构造方法 1、public Element(Tag tag, String baseUri, Attrib
Jsoup解析HTML获取数据的简单实例
jsoup 中文参考文献    http://www.open-open.com/jsoup/ 本文将利用jsoup,简单实现网络抓取的功能,该实例效果为:获取http://blog.csdn.net/zhangvalue的所有文章的标题以及打印出来简单摘要。        二:建立一个Warms.java类,实现代码如下: import org.jsoup.Connecti
Jsoup学习笔记1:解析字符串
Jsoup是Java的一个解析和遍历HTML的API,可以把一个HTML字符串解析成一个Document文档,并且会尽可能的得到一个标准的解析结果,会自动补充缺失的结束标记。 例如:"JsoupJsoup"会解析为"JsoupJsoup",官方文档说会创建隐式标签,即"Jsoup"会解析为Jsoup",但是经验证并不会创建,而是会忽略td标签,解析为"Jsoup",会自动创建完整的HTML页面结
[Java] 解决用Jsoup解析网页过程中由&nbsp造成的乱码问题
昨天晚上在写爬虫的时候,发现Jsoup会在输出utf-8网页的时候把` ` 输出成乱码“?”找了找,发现是编码的问题。那么解决思路就是把这个字符替换掉。但是如何替换,我又想了好多办法,甚至一度想过用正则表达式去解决。还来通过自己思考和查资料,得到了两种方法。 方法1: 把Element转化为字符串,用String.replace替换掉,再通过Jsoup.parse()把处理过的字符串转成
jsoup getElementsByClass 遇到空格无法解析的解决办法
由于有些标签有空格,所以在jsoup.select 中直接写的话,会解析不出来 所以有几种解决方式 方式一在解析前先对该id或者class进行替换 将tr2 t_one替换为tr2_t_one 当然你直接通过tr3也可以取得 getElementsByClass("tr3"); 但要过滤其他数据... 方式二 System.out.print(d
jsoup处理html标签分享
之前写过一篇利用正则表达式处理标签的blog使用正则表达式处理html标签方案分享,感觉正则效率高些,但是一些复杂的文本对于正则表达式要求较高,大概看了下jsoup的解决方式,很轻便,效率上虽然不如正则表达式,但是贵在上手容易,所以就写了个样板供大家参考,写的不好请大家轻喷哦,如下: import org.apache.commons.lang.StringUtils; import o
java-jsoup解析html页面的内容
前面一篇文章讲述了 怎么用httpclient发送页面请求,下面要做的就是 爬取请求到的页面的 内容了。 jsoup可以帮助我们很好的解析页面内容。具体例子我们在上文的框架里做示范。 上文链接:http://blog.csdn.net/zzq900503/article/details/10006751  jsoup的介绍:http://baike.baidu.com/view/406
利用jsoup解析html
1、jsoup简介 jsoup 是一款 Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup 的主要功能如下: (1)从一个 URL,文件或字符串中解析HTML; (2)使用DOM或CSS选择器来查找、取出数据; (3)可操作HTML元素、属性、文本;2、maven