2 qq631023930 qq631023930 于 2015.07.24 10:19 提问

java如何抓取不同网站不同网页的内容

请教大神们如何用java抓取不同网页(不同网站)相同属性的内容,如![图片说明](http://img.ask.csdn.net/upload/201507/24/1437704200_470820.png)图片说明图:

用同一个java程序或正则一次性抓取图片上标注的内容(注:有很多这样的网页)。

3个回答

woceshi
woceshi   2015.07.24 10:27

内容一般在table或者div中,找出特征匹配,截取字符串就行了

woceshi
woceshi 这就是设计的问题 你想整个大而全的 匹配所有特征 不太可能吧 后台整个配置库吧 读取配置然后逐个匹配
2 年多之前 回复
qq631023930
qq631023930 如果是同一个网站,那么就会有相同的特征,比较好解析,但问题是,有各类不同的网站,每个网站设计都是不一样的,所以这点特别头疼,要是每个网站都写一套脚本,那不光是写的时候麻烦,用的时候也麻烦。
2 年多之前 回复
oyljerry
oyljerry   Ds   Rxr 2015.07.24 11:16

对于HTML标签,最好用XML解析类库,通过XPATH等方式来查找,这样简单,也不会容易出错,正则表达式处理这个比较麻烦,而且容易出错

KcCoO
KcCoO   2015.07.24 12:04

应该用到了,网络请求协议http!

Csdn user default icon
上传中...
上传图片
插入图片