JAVA htmlunit 抓取不到页面元素

下面代码中能获取到百度页面的Form 表单，但是获取不到另外一个网页的表单, 此时该如何处理？

ps：获取另外一个网页的源码保存html后，用浏览器打开，能看到 form 表单。

package com.xttx.cn.fetchpro.fetchImp;

import java.io.IOException;
import java.net.URL;
import java.util.List;

import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.CollectingAlertHandler;
import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.HttpWebConnection;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.WebRequest;
import com.gargoylesoftware.htmlunit.html.HtmlForm;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.xttx.cn.fetchpro.exception.PageNotFoundException;

public class SimulationFetch {
protected static WebClient webClient = null;
public WebClient getWebClient() {
return webClient;
}

public  void setWebClient(WebClient webClient) {
    this.webClient = webClient;
}
static WebRequest request = null;

public static void main(String[] args) throws FailingHttpStatusCodeException, IOException, PageNotFoundException, InterruptedException {
    // TODO Auto-generated method stub
    BrowserVersion.FIREFOX_24.setBrowserLanguage("zh-CN");
    BrowserVersion.FIREFOX_24.setSystemLanguage("zh-CN");
    BrowserVersion.FIREFOX_24.setUserLanguage("zh-CN");
    BrowserVersion.FIREFOX_24.setUserAgent("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:46.0) Gecko/20100101 Firefox/46.0");
    BrowserVersion.FIREFOX_24.setBrowserVersion(46.0f);
    BrowserVersion.FIREFOX_24.setCpuClass("x64");
    webClient = new WebClient(BrowserVersion.FIREFOX_24);

    webClient.setWebConnection(new HttpWebConnection(webClient));
    webClient.getCache().clear();
    webClient.getCookieManager().clearCookies();
    webClient.getOptions().setJavaScriptEnabled(true);
    webClient.setJavaScriptTimeout(60*1000);
    webClient.getOptions().setCssEnabled(true);
    webClient.getOptions().setActiveXNative(true);
    webClient.getOptions().setPopupBlockerEnabled(true);
    webClient.getOptions().setRedirectEnabled(true);
    webClient.getOptions().setTimeout(10000);
    webClient.getOptions().setDoNotTrackEnabled(true);
    webClient.getCookieManager().setCookiesEnabled(true);
    webClient.getOptions().setThrowExceptionOnFailingStatusCode(true);
    webClient.getOptions().setThrowExceptionOnScriptError(false);
    webClient.getOptions().setUseInsecureSSL(true);
    webClient.getOptions().setSSLInsecureProtocol("TLSv1.2");
    webClient.setAjaxController(new NicelyResynchronizingAjaxController());
    webClient.setAlertHandler(new CollectingAlertHandler());


    HtmlPage loginPageWithForm =(HtmlPage)webClient.getPage(new WebRequest(new URL("https://login.youzan.com/sso/index?service=kdt&from_source=pzshouye")));
    List<HtmlForm> htmlForm0 = loginPageWithForm.getForms();

    HtmlPage loginPageNoForm = (HtmlPage)webClient.getPage(new WebRequest(new URL("https://www.baidu.com/")));
    HtmlForm htmlForm = loginPageNoForm.getForms().get(0);

    System.out.println("---");

}

}

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dabocaiqq 2017-02-23 18:51
关注
http://www.cnblogs.com/luotinghao/p/3800054.html

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Java：爬虫htmlunit抓取a标签
2024-06-13 01:03

dingcho的博客如果对htmlunit还不了解的话可以参考Java：爬虫htmlunit-CSDN博客了解了htmlunit之后，我们再来学习如何在页面中抓取我们想要的数据，我们在学习初期可以找一些结构比较清晰的网站来做测试爬取，首先我们随意找个...
JAVA 爬虫 htmlunit 获取不到某些页面form 表单，来讨论一下
2017-02-23 17:35

哈哈和呵呵的博客下面代码中能获取到百度页面的Form 表单，但是获取不到另外一个网页的表单, 此时该如何处理？ ps：获取另外一个网页的源码保存html后，用浏览器打开，能看到 form 表单。 package ...
java htmlunit教程_htmlunit官网简易教程（翻译）
2021-03-03 14:41

sxtagz的博客 1 环境搭建：1)下载从链接：http://sourceforge.net/projects/htmlunit/files/htmlunit/下载最新的bin文件2)关于bin文件里面主要包含两部分，一是lib目录下的.jar文件，还有就是apidocs目录下的帮助文件(即API说明...
Java：爬虫htmlunit
2024-01-06 02:42

dingcho的博客其中url可以直接浏览器访问地址直接解析页面，也可以通过分析页面请求接口（开启google浏览器F12开发者模式，刷新对应页面即可查看请求数据地址 -- >> 具体数据需要通过分享查看）
java爬虫抓取简单网页数据,HtmlUnit+Jsoup简单爬虫获取网页数据
2021-04-24 13:18

weixin_39617044的博客思想就是通过Java访问的链接，然后拿到html字符串，然后就是解析链接等需要的数据。技术上使用了Jsoup+HtmlUnit:采用htmlunit获取网页(官网地址http://htmlunit.sourceforge.net/)采用jsoup解析网页，获取数据和链.....
JAVA使用爬虫抓取网站网页内容的方法
2020-09-03 12:22

5. **数据存储**：将抓取的数据保存到本地文件或数据库，便于后续处理和分析。 6. **反反爬策略**：有些网站会设置验证码、IP限制等反爬措施，可能需要采用代理IP、动态UA等方式应对。总的来说，Java实现爬虫主要...
java htmlunit 设置控制台禁止或不打印日志
2022-03-26 19:59

cgv3的博客大家都知道使用htmlunit的时候会有很多debug的日志输出，很影响实际的生产判断，网上一些关于LoggerFactory的配置、还有一些基于配置文件的配置均不能实际解决问题；以下解决方案适用场景为：java的main方法中调...
java 解析js运行完成之后的html_htmlunit抓取js执行后的网页源码
2021-02-26 13:53

每日优质搜罗的博客 URLConnection 使用IO流读取到的源码只有积分没有访问量了而使用浏览器访问直接查看源码有访问。这也就导致了我的程序不能用了需要更新了想想原因可能是幕后主使人把访问量放在了js里面 ...
java使用htmlunit + jsoup 爬网站图片案例(爬虫学习)
2023-07-26 11:49

代号：猿a的博客 // 执行js 向下滚屏(因为页面的图片是通过滚屏进行刷新的,不滚屏后面的图片没有对应的地址数据) // window.scrollTo(0, document.documentElement.scrollHeight) 滑动到底部,可以在页面F12控制台中执行代码测试 ...
java htmlunit js_Java版web浏览器htmlunit使用记录-js解释器
2021-02-28 07:13

字节社的字节君的博客记录一下：前两天有个爬虫的项目出问题了，爬取的服务端升级了mlgbd，给每个关键页面加了cookie验证。访问服务器端给返回状态码202，并且返回的html里有一段加密过的js，这段js通过获取meta标签里动态传入的content...
java 拼html页面返回,java – htmlunit：返回一个完全加载的页面
2021-06-11 09:55

weixin_39808803的博客我找不到解决问题的方法：如何确定所有AJAX调用都已完成并返回一个完全加载的网页？这是我尝试过的：首先我创建WebClient实例并调用我的方法processWebPage(String url,WebClient webClient)WebClient webClient = ...
掌握Java网页抓取：技术与示例完整指南
2025-12-15 20:05

Decodo的博客虽然Python经常受到所有关注，但Java是专业网页抓取的有力竞争者，因为它可靠、快速，并且为规模而构建。其成熟的生态系统包括Jsoup、Selenium、Playwright和HttpClient等库，为您提供大规模网页抓取项目所需的控制...
手把手Java爬虫教学 - 4. 项目1 - htmlunit 页面爬取数据
2022-06-02 15:10

他他 = new 他（）的博客在抓取的过程中可能会抓取到重复的博客，这里我有两种想法：1. 如果碰到相同博客，更新博客；如果不相同，就去新增；2. 如果碰到一个重复的，就认为后面的都是重复的，直接停止任务；经过琢磨，第一种方式绝对不可取...
使用HtmlUnit抓取js渲染后的页面
2023-06-23 21:39

piggy514的博客在Eclipse里运行成功（即，...如果someCmd是wget/curl这种，只能得到一个html，里边的js所拉取（渲染）的数据是得不到的。java里是写死了url，后边做成参数的或读取某个配置文件（例如，里边每行一个所要读取的url）
异步获取html页面,htmlunit 抓取网页数据（页面异步加载）
2021-06-12 04:41

奔跑的设计师的博客如果需要获取异步加载后的数据，这时候就需要htmlunit 了。话不多说，直接看代码！maven 配置：commons-loggingcommons-logging1.2org.jsoupjsoup1.10.2net.sourceforge.htmlunithtmlunit2.25也可以直接打包下载：...
玩转Java网页抓取
2021-09-17 22:27

Oxylabs中文站的博客 — 使用Java进行网页抓取 — ...有两个最常用的Java网页抓取库——JSoup和HtmlUnit。 JSoup是一个强大的库，可以有效地处理格式错误的HTML。这个库的名字来自于短语“tag soup”，它指的是格式....
HtmlUnit（Java）实战指南：从基础爬取到高级交互
2026-03-04 02:22

火锅大魔王的博客本文详细介绍了HtmlUnit这一基于Java的无界面浏览器库，从环境搭建、核心API使用到模拟用户交互、处理异步加载及文件下载等高级功能。通过实战案例，指导开发者高效构建能处理JavaScript动态内容的网络爬虫和自动化...
htmlUnit的读取js渲染的页面
2022-04-21 15:38

Wzy000001的博客 htmlunit的读取js渲染的页面
探索 Java 网络爬虫：Jsoup、HtmlUnit 与 WebMagic 的比较分析
2024-04-08 14:34

=蜗牛=的博客在当今信息爆炸的时代，网络数据的获取和处理变...本文将深入探讨三款广受欢迎的 Java 网页抓取工具：Jsoup、HtmlUnit 和 WebMagic，分析它们的功能特点、优势以及适用场景，以助开发者选择最适合自己项目需求的工具。
没有解决我的问题, 去提问

JAVA htmlunit 抓取不到 页面 元素

1条回答 默认 最新

JAVA htmlunit 抓取不到页面元素

1条回答默认最新