HtmlUnit爬网页不完整，缺少一些标签该如何解决？

我用HtmlUnit中的WebClient.getPage()爬微博手机网页，但输出后发现比用浏览器查看的源码要少一部分标签，请教一下这是什么原因呢？有没有什么解决办法。图片说明

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
诗者才子酒中仙 2023-10-13 20:16
关注
可能是因为HtmlUnit默认是不会执行JavaScript的，而一些网页的内容是通过JavaScript动态加载的，所以在使用WebClient.getPage()时可能会出现缺少标签的情况。解决方法是在获取页面之前，先设置WebClient的选项，让它支持JavaScript的执行。可以使用如下代码：

WebClient webClient = new WebClient(BrowserVersion.CHROME); webClient.getOptions().setJavaScriptEnabled(true); HtmlPage page = webClient.getPage("http://www.example.com");

这样就可以获取完整的网页内容了。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

htmlunit爬取Ajax动态生成的网页获取不到ajax出来的数据 java
2018-12-20 18:15

回答 2 已采纳抓包看下服务器返回的数据对不对，报什么错。你访问的网站是你自己内网的，这个还是需要你自己调试。
HtmlUnit如何解决Html的Window安全登录框的验证问题
2016-09-29 07:33

回答 1 已采纳醉了,都没人说,我自己解决了. // 为该浏览器添加凭证 DefaultCredentialsProvider provider = new DefaultCredentialsProvide
htmlunit是否支持axios ajax java react.js
2018-12-24 10:39

回答 3 已采纳不支持vue,axios的请求HtmlUnit发不出去的
爬取URL解析JS后页面,简单例子:ChromeDriver,htmlunit,jbrowserdriver,phantomjs
2020-05-02 10:00

眨眼睛1024的博客问题产生原因：爬虫爬取结果为html页面的"字符串"（相当于直接复制浏览器窗口里html标签的文本内容），而input标签的value值在字符串中不可见，需通过节点操作（input.value）拿到解决思路：修改html字符串所有...
htmlunit 抓到页面显示正在加载 html5
2017-05-08 08:02

回答 1 已采纳用ie f12抓包，直接取它ajax异步请求，照着写，不要原始的页面
Java：HtmlUnit效率关联PHP CURL？ http java php
2011-05-31 10:39

回答 3 已采纳 Perhaps take a look at Apache Http Client ? You can create a HttpClient per thread and use that t
htmlunit内存一直在增加的问题 html5
2018-01-03 07:56

回答 2 已采纳 http://blog.csdn.net/qq43599939/article/details/68958676 这是我之前的解决方案，但是后面运行一段时间发现还是会js内存泄露，后面改方案也就是
html登陆没反应,点击登录没反应怎么办点击登录没反应解决方法【步骤】
2021-06-19 06:12

十年君子剑的博客我们经常会使用电脑工作或休闲娱乐，但有时候我们却发现在一些网站上面点击登录居然没反应，这到底是网站本身的问题还是自己电脑或是网络的问题呢?下面，我们就来看看网络故障解决方法。1、一般遇到浏览器的问题，第...
对一个网站发起多次请求，前两次正常返回html，后面返回的全是十六进制，怎么回事 python 爬虫
2022-04-26 20:55

回答 1 已采纳网站做了cookie反爬措施。需要带上cookie请求。
Java_爬虫，如何抓取Js动态生成数据的页面？ java 爬虫
2014-07-25 17:44

回答 5 已采纳我之前也遇到过这个问题，网上说法很多，不过觉得都没有解决问题，后来相过有什么功能可以获取请求某一个url地址时所附带请求的其他链接地址，但是这个好像说是用抓包可以实现，不过我没实现只能采用最原
爬虫入门(一)基于webmagic理解爬虫原理及核心业务逻辑
2018-05-17 22:58

weixin_30375247的博客　一句话,对网页进行处理,偷到想要的数据,比如文章标题内容,然后存起来. 　核心步骤: 　下载页面--处理(从page收集数据)--管理(做后续处理)--储存(持久化到文件或DB) 　在webmagic里分为四部分 Downloader、...
htmlunit模拟登录验证码错误 html5
2015-08-21 09:42

回答 1 已采纳用fiddler看下，是不是你请求了多次页面，也就是你识别的验证码不是最终的，或者你没有带上cookie
【无标题】
2023-12-03 11:43

_Aurora_&_&的博客然而，传统的新闻网站和搜索引擎在新闻分类和检索方面存在一些限制。本项目的背景是开发一个新闻分类检索系统，利用爬虫技术从互联网上获取新闻文章，对其进行自动分类，然后提供用户友好的界面来实现高效的新闻检索...
详解 Chrome 「V8 」引擎，让你更懂JavaScript !
2022-03-18 00:31

React 中文社区的博客 1、查看 d8 命令 # 如果不想使用./d8 这种方式进行调试，可将 d8 加入环境变量，之后就可以直接`d8 --help`了 ./d8 --help `2、过滤特定的命令` # 如果是 Windows 系统，可能缺少 grep 程序，请自行下载...
WebMagic爬虫框架学习
2016-12-13 10:43

励志不回头的博客如果你是爬虫开发老手，那么WebMagic会非常容易上手，它几乎使用Java原生的开发方式，只不过提供了一些模块化的约束，封装一些繁琐的操作，并且提供了一些便捷的功能。如果你是爬虫开发新手，那么使用并了解...
Chrome V8让你更懂JavaScript
2020-10-28 17:00

奇舞周刊的博客查看 d8 命令 # 如果不想使用./d8这种方式进行调试，可将d8加入环境变量，之后就可以直接`d8 --help`了 ./d8 --help 过滤特定的命令 # 如果是 Windows 系统，可能缺少 grep 程序，请自行下载安装并添加环境变量 ./...
浏览器是如何工作的：Chrome V8让你更懂JavaScript
2020-12-16 11:23

小智大愚的博客前端开发博客，回复“加群” 加入我们一起学习，天天进步文章来源：https://segmentfault.com/a/1190000037435824 V8 是由 Google 开发的开源 JavaScript 引擎，也被称为虚拟机，模拟实际计算机各种功能来...
万字长文！浏览器是如何工作的：Chrome V8让你更懂JavaScript
2020-11-04 13:30

程序员小乐的博客查看 d8 命令 # 如果不想使用./d8这种方式进行调试，可将d8加入环境变量，之后就可以直接`d8 --help`了 ./d8 --help 过滤特定的命令，如： # 如果是 Windows 系统，可能缺少 grep 程序，请自行下载安装并...
没有解决我的问题, 去提问

悬赏问题

¥20 删除和修改功能无法调用
¥15 kafka topic 所有分副本数修改
¥15 小程序中fit格式等运动数据文件怎样实现可视化？（包含心率信息））
¥15 如何利用mmdetection3d中的get_flops.py文件计算fcos3d方法的flops？
¥40 串口调试助手打开串口后,keil5的代码就停止了
¥15 电脑最近经常蓝屏，求大家看看哪的问题
¥60 高价有偿求java辅导。工程量较大，价格你定，联系确定辅导后将采纳你的答案。希望能给出完整详细代码，并能解释回答我关于代码的疑问疑问，代码要求如下，联系我会发文档
¥50 C++五子棋AI程序编写
¥30 求安卓设备利用一个typeC接口，同时实现向pc一边投屏一边上传数据的解决方案。
¥15 SQL Server analysis services 服务安装失败

HtmlUnit爬网页不完整，缺少一些标签该如何解决？

1条回答 默认 最新

悬赏问题

1条回答默认最新