gj1550713314 2013-10-21 03:02 采纳率: 0%
浏览 1243

求 htmlunit + jsoup 获取网页信息实例

求 htmlunit + jsoup 获取网页信息实例 包括htnlunit获取js里的内容

  • 写回答

1条回答 默认 最新

  • 专家-赤兔[在线] 全栈领域优质创作者 2023-09-27 11:28
    关注

    该回复引自免费微信小程序-皆我百晓生:


    下面是一个使用HtmlUnit和Jsoup获取网页信息的示例:

    import com.gargoylesoftware.htmlunit.WebClient;
    import com.gargoylesoftware.htmlunit.html.HtmlPage;
    import org.jsoup.Jsoup;
    import org.jsoup.nodes.Document;
    import org.jsoup.nodes.Element;
    import org.jsoup.select.Elements;
    
    public class HtmlUnitJsoupExample {
        public static void main(String[] args) {
            try (WebClient webClient = new WebClient()) {
                // 启用JavaScript
                webClient.getOptions().setJavaScriptEnabled(true);
    
                // 获取网页内容
                HtmlPage page = webClient.getPage("http://example.com");
    
                // 将HtmlPage转换为Jsoup的Document对象
                Document doc = Jsoup.parse(page.asXml());
    
                // 使用Jsoup提取网页信息
                Element titleElement = doc.selectFirst("title");
                String title = titleElement.text();
                System.out.println("Title: " + title);
    
                Elements links = doc.select("a[href]");
                for (Element link : links) {
                    String href = link.attr("href");
                    String text = link.text();
                    System.out.println("Link: " + text + " (" + href + ")");
                }
    
                // 使用HtmlUnit执行JavaScript并获取结果
                String jsCode = "document.getElementById('elementId').innerHTML";
                Object result = page.executeJavaScript(jsCode).getJavaScriptResult();
                System.out.println("JavaScript Result: " + result);
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
    }
    

    上述示例中,首先创建一个WebClient对象,并启用JavaScript。然后使用WebClient的getPage方法获取网页内容,并将HtmlPage对象转换为Jsoup的Document对象。接下来,可以使用Jsoup提供的方法来提取网页信息,例如获取标题和链接。最后,可以使用HtmlUnit的executeJavaScript方法执行JavaScript代码,并获取执行结果。

    请注意,你需要将HtmlUnit和Jsoup的相关库添加到项目的依赖中。

    评论

报告相同问题?

悬赏问题

  • ¥60 版本过低apk如何修改可以兼容新的安卓系统
  • ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
  • ¥50 有数据,怎么建立模型求影响全要素生产率的因素
  • ¥50 有数据,怎么用matlab求全要素生产率
  • ¥15 TI的insta-spin例程
  • ¥15 完成下列问题完成下列问题
  • ¥15 C#算法问题, 不知道怎么处理这个数据的转换
  • ¥15 YoloV5 第三方库的版本对照问题
  • ¥15 请完成下列相关问题!
  • ¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像,如何解决?