2 u013720139 u013720139 于 2016.02.05 11:44 提问

如何用Java爬取网页的copyright?

谢谢了!新人不知道要怎么爬,这是老师论文中的内容,论文中写用了11种正则来抓取
请求大家支援QAQ

4个回答

rui888
rui888   Ds   Rxr 2016.02.05 14:51
已采纳

jsoup


import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;


public static void main(String[] args) throws IOException {


        Document doc = Jsoup.connect("  http://www.ccopyright.com.cn/cpcc/index.jsp")
                .get();
        Elements es = doc.getElementsContainingOwnText("版权所有");
        System.out.println(es.html().replaceAll("<([^>]*)>", ""));
    }
qq_23660243
qq_23660243   2016.02.05 13:07

1 把网页源码下载
2 查看源码找到你要爬取的网站的copyright的标签(有些可能是直接放到图片上的,那就爬不了了)
3 然后再写正则抓取
例子

qq_23660243
qq_23660243 回复天青晚雨: 可以加我qq 我最近也刚开始学爬虫 可以相互学习一下:504183224
接近 2 年之前 回复
qq_23660243
qq_23660243 回复天青晚雨: 你确定这个页面能打开?
接近 2 年之前 回复
u013720139
u013720139 回复MOONBOY_GO: http://www.evendorslist.com/stopping/mpp/
接近 2 年之前 回复
qq_23660243
qq_23660243 回复天青晚雨: 各个网站的设计不同 抓取所需的正则也不同 你这么问很难回答 你给个网站 问题有确定目标才好解决
接近 2 年之前 回复
u013720139
u013720139 能不能写个爬取copyright的例子,谢谢
接近 2 年之前 回复
rui888
rui888   Ds   Rxr 2016.02.05 14:15
u013720139
u013720139 能不能写个爬取copyright的例子,谢谢
接近 2 年之前 回复
oyljerry
oyljerry   Ds   Rxr 2016.02.05 14:44

既然都提到正则了,那就是你java获取页面的返回内容,然后用对应的正则语法去匹配对应的字符串
主要就是分析各种页面的copyright的正则语法

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!