2 leo323800 leo323800 于 2016.02.24 17:40 提问

Jsoup 如何抓取GOOGLE网页数据

网络爬虫新手,以前学过JAVA,所以想用JAVA来做一些数据抓取工作

在网上找的 Jsoup的JAR,试了一下感觉比较容易上手,所以想抓取GOOGLE数据

代码也是网上找的, 但是出现 timeOut,我觉得可能是GOOGLE被屏蔽的问题,我使用Ishadowsock翻墙平时,但是打开以后运货还是timeOut.

不知道各位大神能不能支支招,另外想问一下GOOGLE数据抓取有没有更好一些的开源工具,谢谢万分!

Set result = new HashSet();
String request = "https://www.google.com/search?q=" + query + "&num=20";
System.out.println("Sending request..." + request);

    try {

        // need http protocol, set this as a Google bot agent :)
        Document doc = Jsoup.connect(request)
                .userAgent("Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)").timeout(5000)
                .get();

        // get all links
        Elements links = doc.select("a[href]");
        for (Element link : links) {

            String temp = link.attr("href");
            if (temp.startsWith("/url?q=")) {
                // use regex to get domain name
                result.add(getDomainName(temp));
            }

        }

2个回答

qy20115549
qy20115549   2016.08.14 13:55

网络爬虫原理【首先抓包开始】
网络爬虫之httpclient的使用
简单的网络爬虫实现(Jsoup使用)
基于java的网络爬虫框架(实现京东数据的爬取,并将插入数据库)
Jsoup一般针对的是html文件,主要用的是解析。获取响应数据,应该用httpclient或者其他的工具。并且获取数据,采用的方式是网络抓包,查看数据请求的真实地址。看看是html还是json数据。如果是html文件,可用jsoup直接解析,如果是json可以阿里开源下面的fastjson解析。
这几篇博客里,都有写,包括代码,都给出来了

caozhy
caozhy   Ds   Rxr 2016.02.25 06:14

不知道你怎么翻蔷的,你通过浏览器可以访问google么?

leo323800
leo323800 打开 ishadowsocks以后,通过IE能访问google的
接近 2 年之前 回复
Csdn user default icon
上传中...
上传图片
插入图片