求 htmlunit + jsoup 获取网页信息实例

求 htmlunit + jsoup 获取网页信息实例包括htnlunit获取js里的内容

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

专家-赤兔[在线] 全栈领域优质创作者 2023-09-27 11:28

关注

该回复引自免费微信小程序-皆我百晓生:

下面是一个使用HtmlUnit和Jsoup获取网页信息的示例：

import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HtmlUnitJsoupExample {
    public static void main(String[] args) {
        try (WebClient webClient = new WebClient()) {
            // 启用JavaScript
            webClient.getOptions().setJavaScriptEnabled(true);

            // 获取网页内容
            HtmlPage page = webClient.getPage("http://example.com");

            // 将HtmlPage转换为Jsoup的Document对象
            Document doc = Jsoup.parse(page.asXml());

            // 使用Jsoup提取网页信息
            Element titleElement = doc.selectFirst("title");
            String title = titleElement.text();
            System.out.println("Title: " + title);

            Elements links = doc.select("a[href]");
            for (Element link : links) {
                String href = link.attr("href");
                String text = link.text();
                System.out.println("Link: " + text + " (" + href + ")");
            }

            // 使用HtmlUnit执行JavaScript并获取结果
            String jsCode = "document.getElementById('elementId').innerHTML";
            Object result = page.executeJavaScript(jsCode).getJavaScriptResult();
            System.out.println("JavaScript Result: " + result);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

上述示例中，首先创建一个WebClient对象，并启用JavaScript。然后使用WebClient的getPage方法获取网页内容，并将HtmlPage对象转换为Jsoup的Document对象。接下来，可以使用Jsoup提供的方法来提取网页信息，例如获取标题和链接。最后，可以使用HtmlUnit的executeJavaScript方法执行JavaScript代码，并获取执行结果。

请注意，你需要将HtmlUnit和Jsoup的相关库添加到项目的依赖中。

报告相同问题？

关注问题

htmlunit爬取Ajax动态生成的网页获取不到ajax出来的数据 java
2018-12-20 18:15

回答 2 已采纳抓包看下服务器返回的数据对不对，报什么错。你访问的网站是你自己内网的，这个还是需要你自己调试。
htmlunit是否支持axios ajax java react.js
2018-12-24 10:39

回答 3 已采纳不支持vue,axios的请求HtmlUnit发不出去的
那些年我准备的前端面试题
2016-08-07 15:23

liangklfang的博客否则忽略exports收集到的属性 (4)如果想要自己的模块为某一种实例，可以用module.exports，而不是给exports赋值，因为后者如果直接赋值为一个函数那么压根就不会反应到外面环境（除非设置为exports属性） (5)nodejs...
htmlunit 抓到页面显示正在加载 html5
2017-05-08 08:02

回答 1 已采纳用ie f12抓包，直接取它ajax异步请求，照着写，不要原始的页面
htmlunit内存一直在增加的问题 html5
2018-01-03 07:56

回答 2 已采纳 http://blog.csdn.net/qq43599939/article/details/68958676 这是我之前的解决方案，但是后面运行一段时间发现还是会js内存泄露，后面改方案也就是
Java：HtmlUnit效率关联PHP CURL？ http java php
2011-05-31 10:39

回答 3 已采纳 Perhaps take a look at Apache Http Client ? You can create a HttpClient per thread and use that t
基于Spring Boot + HttpClient框架的多平台多接口数据一致性校验diff测试1
2021-04-23 20:11

东方狱兔的博客调用接口解析的responseToParse(int count, JSONObject response) 个别接口返回为数组格式（开发不规范导致的）返回解析：获取当前case的类名，截取为geneLogName，作为存放需要对比的返回字段的json日志，每条...
HtmlUnit如何解决Html的Window安全登录框的验证问题
2016-09-29 07:33

回答 1 已采纳醉了,都没人说,我自己解决了. // 为该浏览器添加凭证 DefaultCredentialsProvider provider = new DefaultCredentialsProvide
htmlunit模拟登录验证码错误 html5
2015-08-21 09:42

回答 1 已采纳用fiddler看下，是不是你请求了多次页面，也就是你识别的验证码不是最终的，或者你没有带上cookie
java htmlunit 抓取联通通话详单，内容无法解析 java
2017-05-03 08:37

回答 1 已采纳其实他这个是算异步获取数据的，以前我在公司也抓过www.weather.com也和你一样的情况，基本上都是靠Fiddler4一个请求一个请求的检查
【Java】使用Java实现爬虫
2022-08-04 17:07

Do_GH的博客利用HtmlUtil和HttpClient实现爬取网页内容
MapReduce中执行HTMLUnit 报nosuchfielderror：INSTANCE html5 mapreduce
2015-09-01 09:17

回答 1 已采纳 http://blog.csdn.net/izgnaw/article/details/18045879
java学习路线
2022-02-08 14:40

Costanza的博客 Java 学习路线 Java 学习路线一条龙版 by 程序员鱼皮 ???? + ??...同时适用于想全面学习 / 快速求职的同学，可以根据符号来定制自己的专属学习路线给出目标、学习建议、关键知识点、最优资源以及各类资源推荐（视频...
Java 学习路线一条龙版
2021-12-02 11:50

程序员阿红的博客 Java 学习路线一条龙版 Java 学习路线一条龙版 by 程序员鱼皮 ???? + ??...学习路线来源于：程序员鱼皮，大家可以去b站看看他的视频。...同时适用于想全面学习 / 快速求职的同学，可以根据符号来定制自己的专属学习路线 ...
乔戈里推荐的新版Java学习路线，开源！
2021-12-13 23:49

程序员乔戈里的博客 Java 学习路线一条龙版 by 程序员鱼皮所以我又抽空做了新版的 Java 学习路线一条龙，补充了很多内容（比如面试题、常用 Java 类库、常用软件等），让整个路线字数翻倍。同时区...
今天大佬不吝啬的告诉你们30 种最好用的开源爬虫软件
2021-07-30 18:16

不想敲代码的小码农的博客 Gecco 集成了 jsoup、httpclient、fastjson、spring、htmlunit、redission 等优秀框架。用户只需要配置一系列 jQuery 风格选择器，就能很快地建立一个爬虫。Gecco 框架具有优秀的扩展能力。框架基于一些开放式和封闭...
【体系-单体架构】14-模块间的通信
2020-07-19 11:42

山维的博客其中 GET：用于查询资源 POST：用于创建资源(GET获取数据、POST提交数据，大部分公司都只用这两种，但是都会遵循其语义) PUT：用于更新服务端的资源的全部信息 PATCH：用于更新服务端的资源的部分信息(PUT/PATCH对应...
python函数参数的作用域_python函数默认参数作用域
2021-03-05 22:30

13338383381的博客 Java Rest客户端框架有哪些 HttpClient HtmlUnit Jsoup HttpUrlConnection(java原生) Http4j beta阶段贡献分配实施作业要求[https://edu.cnblogs.com/campus/nenu/2018fall/homework/2281] 要求1 每位组员的贡献...
没有解决我的问题, 去提问

悬赏问题

¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？

码龄粉丝数原力等级 --

求 htmlunit + jsoup 获取网页信息实例

1条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

求 htmlunit + jsoup 获取网页信息实例

1条回答 默认 最新

悬赏问题

1条回答默认最新