求 htmlunit + jsoup 获取网页信息实例

求 htmlunit + jsoup 获取网页信息实例包括htnlunit获取js里的内容

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

专家-赤兔[在线] 全栈领域优质创作者 2023-09-27 11:28

关注

该回复引自免费微信小程序-皆我百晓生:

下面是一个使用HtmlUnit和Jsoup获取网页信息的示例：

import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HtmlUnitJsoupExample {
    public static void main(String[] args) {
        try (WebClient webClient = new WebClient()) {
            // 启用JavaScript
            webClient.getOptions().setJavaScriptEnabled(true);

            // 获取网页内容
            HtmlPage page = webClient.getPage("http://example.com");

            // 将HtmlPage转换为Jsoup的Document对象
            Document doc = Jsoup.parse(page.asXml());

            // 使用Jsoup提取网页信息
            Element titleElement = doc.selectFirst("title");
            String title = titleElement.text();
            System.out.println("Title: " + title);

            Elements links = doc.select("a[href]");
            for (Element link : links) {
                String href = link.attr("href");
                String text = link.text();
                System.out.println("Link: " + text + " (" + href + ")");
            }

            // 使用HtmlUnit执行JavaScript并获取结果
            String jsCode = "document.getElementById('elementId').innerHTML";
            Object result = page.executeJavaScript(jsCode).getJavaScriptResult();
            System.out.println("JavaScript Result: " + result);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

上述示例中，首先创建一个WebClient对象，并启用JavaScript。然后使用WebClient的getPage方法获取网页内容，并将HtmlPage对象转换为Jsoup的Document对象。接下来，可以使用Jsoup提供的方法来提取网页信息，例如获取标题和链接。最后，可以使用HtmlUnit的executeJavaScript方法执行JavaScript代码，并获取执行结果。

请注意，你需要将HtmlUnit和Jsoup的相关库添加到项目的依赖中。

报告相同问题？

关注问题

htmlunit爬取Ajax动态生成的网页获取不到ajax出来的数据 java
2018-12-20 18:15

回答 2 已采纳抓包看下服务器返回的数据对不对，报什么错。你访问的网站是你自己内网的，这个还是需要你自己调试。
htmlunit是否支持axios ajax java react.js
2018-12-24 10:39

回答 3 已采纳不支持vue,axios的请求HtmlUnit发不出去的
那些年我准备的前端面试题
2016-08-07 15:23

liangklfang的博客否则忽略exports收集到的属性 (4)如果想要自己的模块为某一种实例，可以用module.exports，而不是给exports赋值，因为后者如果直接赋值为一个函数那么压根就不会反应到外面环境（除非设置为exports属性） (5)nodejs...
htmlunit 抓到页面显示正在加载 html5
2017-05-08 08:02

回答 1 已采纳用ie f12抓包，直接取它ajax异步请求，照着写，不要原始的页面
htmlunit内存一直在增加的问题 html5
2018-01-03 07:56

回答 2 已采纳 http://blog.csdn.net/qq43599939/article/details/68958676 这是我之前的解决方案，但是后面运行一段时间发现还是会js内存泄露，后面改方案也就是
Java：HtmlUnit效率关联PHP CURL？ http java php
2011-05-31 10:39

回答 3 已采纳 Perhaps take a look at Apache Http Client ? You can create a HttpClient per thread and use that t
基于Spring Boot + HttpClient框架的多平台多接口数据一致性校验diff测试1
2021-04-23 20:11

东方狱兔的博客调用接口解析的responseToParse(int count, JSONObject response) 个别接口返回为数组格式（开发不规范导致的）返回解析：获取当前case的类名，截取为geneLogName，作为存放需要对比的返回字段的json日志，每条...
HtmlUnit如何解决Html的Window安全登录框的验证问题
2016-09-29 07:33

回答 1 已采纳醉了,都没人说,我自己解决了. // 为该浏览器添加凭证 DefaultCredentialsProvider provider = new DefaultCredentialsProvide
htmlunit模拟登录验证码错误 html5
2015-08-21 09:42

回答 1 已采纳用fiddler看下，是不是你请求了多次页面，也就是你识别的验证码不是最终的，或者你没有带上cookie
java htmlunit 抓取联通通话详单，内容无法解析 java
2017-05-03 08:37

回答 1 已采纳其实他这个是算异步获取数据的，以前我在公司也抓过www.weather.com也和你一样的情况，基本上都是靠Fiddler4一个请求一个请求的检查
【Java】使用Java实现爬虫
2022-08-04 17:07

Do_GH的博客利用HtmlUtil和HttpClient实现爬取网页内容
MapReduce中执行HTMLUnit 报nosuchfielderror：INSTANCE html5 mapreduce
2015-09-01 09:17

回答 1 已采纳 http://blog.csdn.net/izgnaw/article/details/18045879
java学习路线
2022-02-08 14:40

Costanza的博客 Java 学习路线 Java 学习路线一条龙版 by 程序员鱼皮 ???? + ??...同时适用于想全面学习 / 快速求职的同学，可以根据符号来定制自己的专属学习路线给出目标、学习建议、关键知识点、最优资源以及各类资源推荐（视频...
Java 学习路线一条龙版
2021-12-02 11:50

程序员阿红的博客 Java 学习路线一条龙版 Java 学习路线一条龙版 by 程序员鱼皮 ???? + ??...学习路线来源于：程序员鱼皮，大家可以去b站看看他的视频。...同时适用于想全面学习 / 快速求职的同学，可以根据符号来定制自己的专属学习路线 ...
乔戈里推荐的新版Java学习路线，开源！
2021-12-13 23:49

程序员乔戈里的博客 Java 学习路线一条龙版 by 程序员鱼皮所以我又抽空做了新版的 Java 学习路线一条龙，补充了很多内容（比如面试题、常用 Java 类库、常用软件等），让整个路线字数翻倍。同时区...
今天大佬不吝啬的告诉你们30 种最好用的开源爬虫软件
2021-07-30 18:16

不想敲代码的小码农的博客 Gecco 集成了 jsoup、httpclient、fastjson、spring、htmlunit、redission 等优秀框架。用户只需要配置一系列 jQuery 风格选择器，就能很快地建立一个爬虫。Gecco 框架具有优秀的扩展能力。框架基于一些开放式和封闭...
【体系-单体架构】14-模块间的通信
2020-07-19 11:42

山维的博客其中 GET：用于查询资源 POST：用于创建资源(GET获取数据、POST提交数据，大部分公司都只用这两种，但是都会遵循其语义) PUT：用于更新服务端的资源的全部信息 PATCH：用于更新服务端的资源的部分信息(PUT/PATCH对应...
python函数参数的作用域_python函数默认参数作用域
2021-03-05 22:30

13338383381的博客 Java Rest客户端框架有哪些 HttpClient HtmlUnit Jsoup HttpUrlConnection(java原生) Http4j beta阶段贡献分配实施作业要求[https://edu.cnblogs.com/campus/nenu/2018fall/homework/2281] 要求1 每位组员的贡献...
没有解决我的问题, 去提问

悬赏问题

¥15 使用C#，asp.net读取Excel文件并保存到Oracle数据库
¥15 C# datagridview 单元格显示进度及值
¥15 thinkphp6配合social login单点登录问题
¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场部分对应不上
¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配

码龄粉丝数原力等级 --

求 htmlunit + jsoup 获取网页信息实例

1条回答

码龄粉丝数原力等级 --

悬赏问题