关于#java爬虫#的问题，请各位专家解答！


import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.util.HashSet;
import java.util.Set;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;

public class WebCrawler {

    public static void main(String[] args) {
        String url = "https://news.163.com/";
        String userAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64)";

        try {
            Document doc = Jsoup.connect(url).userAgent(userAgent).get();
            Elements links = doc.select("a[href]");

            Set<String> allLinks = new HashSet<String>(); // 手动指定泛型类型为String
            for (Element link : links) {
                allLinks.add(link.attr("abs:href"));
            }

            ExecutorService executor = Executors.newFixedThreadPool(3);
            for (final String link : allLinks) {
                executor.execute(new Runnable() {
                    @Override
                    public void run() {
                        try {
                            Document innerDoc = Jsoup.connect(link).userAgent(userAgent).get();
                            Elements innerLinks = innerDoc.select("a[href]");
                            for (Element innerLink : innerLinks) {
                                String innerUrl = innerLink.attr("abs:href");
                                System.out.println("内部链接：" + innerUrl);
                            }
                        } catch (IOException e) {
                            e.printStackTrace();
                        }
                    }
                });
            }

            executor.shutdown();

        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

本人正在自学jsoup爬虫想知道这段代码里面都调用了什么方法我刚开始学jsoup 不知道该如何下手希望能指教一二

多谢！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

7条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-04-26 17:30
关注
引自免费微信小程序：皆我百晓生

在给定的Java代码片段中，主要使用了JSoup库进行网页抓取。下面是对整个代码的详细解释：

引入相关依赖：

import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; import java.util.HashSet; import java.util.Set; import java.util.concurrent.ExecutorService; import java.util.concurrent.Executors;

定义主类 WebCrawler 和 main 方法。

public class WebCrawler { public static void main(String[] args) { ... } }

初始化要抓取的URL和User-Agent（浏览器标识）:

String url = "https://news.163.com/"; String userAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64)";

使用 Jsoup.connect(url) 连接到指定URL并获取HTML文档:

Document doc = Jsoup.connect(url).userAgent(userAgent).get();

使用CSS选择器 a[href] 选取页面上所有带有href属性的 <a> 标签元素:

Elements links = doc.select("a[href]");

创建一个HashSet allLinks 存储所有的外部链接，并遍历这些链接:

Set<String> allLinks = new HashSet<>(); for (Element link : links) { allLinks.add(link.attr("abs:href")); }

创建一个固定大小的线程池 ExecutorService 用于并发处理任务:

ExecutorService executor = Executors.newFixedThreadPool(3);

遍历 allLinks 中的每个链接，创建一个新的Runnable任务并在线程池中执行它:

for (final String link : allLinks) { executor.execute(new Runnable() { @Override public void run() { ... } }); }

在Runnable的任务中，对每个链接执行相同的步骤：连接、获取文档、提取内部链接并打印它们:

try { Document innerDoc = Jsoup.connect(link).userAgent(userAgent).get(); Elements innerLinks = innerDoc.select("a[href]"); for (Element innerLink : innerLinks) { String innerUrl = innerLink.attr("abs:href"); System.out.println("内部链接：" + innerUrl); } } catch (IOException e) { e.printStackTrace(); }

最后，关闭线程池以防止资源泄露:

executor.shutdown();

这个程序的主要功能是递归地抓取网易新闻网站（news.163.com）及其内嵌页面上的所有链接，并将内部链接打印出来。通过使用线程池，我们可以并发处理多个链接的抓取，提高抓取速度。

如果你对某个特定的函数或概念不熟悉，可以参考以下说明：

Jsoup.connect(url).userAgent(userAgent).get(): 这一行连接到指定的URL，设置User-Agent并获取HTML文档。
doc.select("a[href]"): 使用CSS选择器找到HTML文档中的所有链接。
link.attr("abs:href"): 获取链接元素的绝对URL。
ExecutorService executor = Executors.newFixedThreadPool(3);: 创建一个包含3个线程的线程池。
executor.execute(new Runnable() {...}): 将任务提交到线程池执行。
e.printStackTrace(): 当捕获到异常时，打印堆栈跟踪信息。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

《Python3网络爬虫开发实战（第二版）》上市了！！！！
2021-11-29 12:00

风度78的博客 “阅读本文大概需要 5 分钟。”告诉大家一个好消息：我的好朋友崔庆才老师的《Python3网络爬虫开发实战（第二版）》现在正式上市了！！！！没错，就是这本：就是那个《Python3网络...
《Python3网络爬虫开发实战（第二版）》今天正式上市了！！！！
2021-11-26 12:32

VIP_CQCRE的博客 “ 阅读本文大概需要 5 分钟。 ”大家好！我是崔庆才。今天告诉大家一个好消息：《Python3网络爬虫开发实战（第二版）》今天正式上市了！！！！没错，就是这本：2018 年 5 月我的《...
Java 大视界 -- Java 大数据文本分析与自然语言处理：从文本挖掘到智能对话（十）
2025-01-05 16:17

青云交的博客本文聚焦 Java 大数据文本分析与 NLP，详述文本采集、挖掘，机器翻译、智能对话，结合金融、旅游案例剖析语义、安全挑战及应对，为文本技术应用添翼。
计算机专业的学生应该怎样提高自己的编程能力？
2020-11-17 17:19

又是一个特殊的一天的博客本人国内某重点大学渣渣专业大一在读，专业对编程要求较高。大一刚学编程（C/C++），感觉有点吃力，求指点。我们平时练习都是做的OJ(老师负责选一些题让我们做，也可以自己随便刷），一些题还好，可是有些题难度...
阿里Java面经大全（整合版）
2018-08-03 16:10

Java技术江湖的博客阿里巴巴，三面，java实习昨天晚上11点打电话来，问我可以面试不，我说不可以，然后就约到了今天， 1.上来问我项目用的框架，然后问我springmvc里面有的参数的设定，问的是细节，然后问我如果传的多个值是一个...
豆瓣工程师为你解答关于 Python3 编程方面的问题
2016-10-12 07:51

weixin_34366546的博客因此我们 OSC 第 128 期高手问答请来了豆瓣工程师为大家解答关于Python的相关问题。本文挑选了部分精彩的问答内容，分享给各位交流、学习。也可以转到原链接继续浏览。（一）版本选择—— Python 3 发布也有...
网络安全专家带你扒一扒计算机思维和数学思维，从零基础到精通，收藏这篇就够了！
2025-03-29 11:14

程序员羊羊的博客所形成的问题解决方案是多样的，并且不受编程语言的限制，也就是我们常说的“一个问题可以有不同的解决方案，一个方案可以有不同的算法设计，一个算法可以用不同的编程语言来实现”。因此，在教学中应该着重体现利用...
总监的烦恼：技术丢了怎么办？
2022-06-07 10:00

杏仁技术站的博客原创不易，求分享、求一键三连前段时间有个粉丝与我讨论了一个问题：小钗，我半年前从技术经理升职到了技术总监，但这段时间的工作很恼火：一大半时间要去开各种产品会，还有一些时间要去处理团队扯皮，这导致我写...
【零基础编程全攻略】小白如何入门编程？选对方向，详细路线助你成为程序员！收藏这一篇就够了
2025-04-04 14:23

网安小陈的博客零基础编程入门先学什么？编程语言有几百种，我们应该怎么选择。想学习编程，加入互联网行业，哪一个更有前途？在小白学习编程会有各种各样的问题，今天小编我就来为你解答。
《Python全栈基础教程》目录
2022-06-18 13:48

暮晓引流软件的博客 -----使用c和python实现》《数字各位数统计》【持续更新中~】四、Python习题部分实践是检验真理的唯一标准，编程界也很忌讳光学理论不操作，不敲代码。所以本部分就提供很多很多的习题，供大家强化学习。希望...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月26日

关于#java爬虫#的问题，请各位专家解答！

7条回答 默认 最新

问题事件

7条回答默认最新