HtmlUnit爬网页不完整，缺少一些标签该如何解决？

我用HtmlUnit中的WebClient.getPage()爬微博手机网页，但输出后发现比用浏览器查看的源码要少一部分标签，请教一下这是什么原因呢？有没有什么解决办法。图片说明

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
凭空起惊雷 2023-10-13 20:16
关注
可能是因为HtmlUnit默认是不会执行JavaScript的，而一些网页的内容是通过JavaScript动态加载的，所以在使用WebClient.getPage()时可能会出现缺少标签的情况。解决方法是在获取页面之前，先设置WebClient的选项，让它支持JavaScript的执行。可以使用如下代码：

WebClient webClient = new WebClient(BrowserVersion.CHROME); webClient.getOptions().setJavaScriptEnabled(true); HtmlPage page = webClient.getPage("http://www.example.com");

这样就可以获取完整的网页内容了。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

爬取URL解析JS后页面,简单例子:ChromeDriver,htmlunit,jbrowserdriver,phantomjs
2020-05-02 10:00

眨眼睛1024的博客问题产生原因：爬虫爬取结果为html页面的"字符串"（相当于直接复制浏览器窗口里html标签的文本内容），而input标签的value值在字符串中不可见，需通过节点操作（input.value）拿到解决思路：修改html字符串所有...
爬虫入门(一)基于webmagic理解爬虫原理及核心业务逻辑
2018-05-17 22:58

weixin_30375247的博客　一句话,对网页进行处理,偷到想要的数据,比如文章标题内容,然后存起来. 　核心步骤: 　下载页面--处理(从page收集数据)--管理(做后续处理)--储存(持久化到文件或DB) 　在webmagic里分为四部分 Downloader、...
基于爬虫技术的新闻分类检索系统
2023-12-03 11:43

_Aurora_&_&的博客然而，传统的新闻网站和搜索引擎在新闻分类和检索方面存在一些限制。本项目的背景是开发一个新闻分类检索系统，利用爬虫技术从互联网上获取新闻文章，对其进行自动分类，然后提供用户友好的界面来实现高效的新闻检索...
WebMagic爬虫框架学习
2016-12-13 10:43

励志不回头的博客如果你是爬虫开发老手，那么WebMagic会非常容易上手，它几乎使用Java原生的开发方式，只不过提供了一些模块化的约束，封装一些繁琐的操作，并且提供了一些便捷的功能。如果你是爬虫开发新手，那么使用并了解...
详解 Chrome 「V8 」引擎，让你更懂JavaScript !
2022-03-18 00:31

React 中文社区的博客 1、查看 d8 命令 # 如果不想使用./d8 这种方式进行调试，可将 d8 加入环境变量，之后就可以直接`d8 --help`了 ./d8 --help `2、过滤特定的命令` # 如果是 Windows 系统，可能缺少 grep 程序，请自行下载...
Chrome V8让你更懂JavaScript
2020-10-28 17:00

奇舞周刊的博客查看 d8 命令 # 如果不想使用./d8这种方式进行调试，可将d8加入环境变量，之后就可以直接`d8 --help`了 ./d8 --help 过滤特定的命令 # 如果是 Windows 系统，可能缺少 grep 程序，请自行下载安装并添加环境变量 ./...
浏览器是如何工作的：Chrome V8让你更懂JavaScript
2020-12-16 11:23

小智大愚的博客前端开发博客，回复“加群” 加入我们一起学习，天天进步文章来源：https://segmentfault.com/a/1190000037435824 V8 是由 Google 开发的开源 JavaScript 引擎，也被称为虚拟机，模拟实际计算机各种功能来...
万字长文！浏览器是如何工作的：Chrome V8让你更懂JavaScript
2020-11-04 13:30

程序员小乐的博客查看 d8 命令 # 如果不想使用./d8这种方式进行调试，可将d8加入环境变量，之后就可以直接`d8 --help`了 ./d8 --help 过滤特定的命令，如： # 如果是 Windows 系统，可能缺少 grep 程序，请自行下载安装并...
WebMagic介绍
2018-02-09 17:10

刘五分的博客核心部分(webmagic-core)是一个精简的、模块化的爬虫实现，而扩展部分则包括一些便利的、实用性的功能。WebMagic的架构设计参照了Scrapy，目标是尽量的模块化，并体现爬虫的功能特点。这部分提供非常简单、灵活的...
Spring官方文档翻译（1~7章）
2018-02-04 18:07

萧曵丶的博客一、Spring框架概述 ...Spring框架是一个轻量级的解决方案，可以一站式地构建企业级应用。Spring是模块化的，所以可以只使用其中需要的部分。可以在任何web框架上使用控制反转（IoC），也可以只使
Spring官方文档翻译
2016-11-26 18:07

langhong8的博客 Spring框架是一个轻量级的解决方案，可以一站式地构建企业级应用。Spring是模块化的，所以可以只使用其中需要的部分。可以在任何web框架上使用控制反转（IoC），也可以只使用Hibernate集成代码或JDBC抽象层。它支持...
没有解决我的问题, 去提问

HtmlUnit爬网页不完整，缺少一些标签该如何解决？

1条回答 默认 最新

1条回答默认最新