htmlunit+jsoup爬取知乎视频，获取的html字符串中缺少视频信息，如何解决？

大神帮忙看一下
今天使用htmlunit+jsoup爬取知乎网站的视频，发现爬取到的html中缺少视频的信息，无法进行下一步了
知乎视频网址：https://video.zhihu.com/video/1157743087110549504?autoplay=false&useMSE=
浏览器检查中查看到的视频信息
图片说明

java代码

@Test
    public void testttt() {
        final WebClient webClient = new WebClient(BrowserVersion.CHROME);//新建一个模拟谷歌Chrome浏览器的浏览器客户端对象

        webClient.getOptions().setThrowExceptionOnScriptError(false);//当JS执行出错的时候是否抛出异常, 这里选择不需要
        webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);//当HTTP的状态非200时是否抛出异常, 这里选择不需要
        webClient.getOptions().setActiveXNative(false);
        webClient.getOptions().setCssEnabled(false);//是否启用CSS, 因为不需要展现页面, 所以不需要启用
        webClient.getOptions().setJavaScriptEnabled(true); //很重要，启用JS
        webClient.setAjaxController(new NicelyResynchronizingAjaxController());//很重要，设置支持AJAX

        HtmlPage page = null;
        try {
            page = webClient.getPage("https://video.zhihu.com/video/1157743087110549504?autoplay=false&useMSE=");//尝试加载上面图片例子给出的网页
//            page = webClient.getPage("http://ent.sina.com.cn/film/");//尝试加载上面图片例子给出的网页
        } catch (Exception e) {
            e.printStackTrace();
        }finally {
            webClient.close();
        }

        webClient.waitForBackgroundJavaScript(30000000);//异步JS执行需要耗时,所以这里线程要阻塞30秒,等待异步JS执行结束

        String pageXml = page.asXml();//直接将加载完成的页面转换成xml格式的字符串

        System.out.println(pageXml);
        //TODO 下面的代码就是对字符串的操作了,常规的爬虫操作,用到了比较好用的Jsoup库

//        Document document = Jsoup.parse(pageXml);//获取html文档
//        List<Element> infoListEle = document.getElementById("feedCardContent").getElementsByAttributeValue("class", "feed-card-item");//获取元素节点等
//        infoListEle.forEach(element -> {
//            System.out.println(element.getElementsByTag("h2").first().getElementsByTag("a").text());
//            System.out.println(element.getElementsByTag("h2").first().getElementsByTag("a").attr("href"));
//        });
    }

运行程序打印的html如下：
图片说明
有大神遇到过这个问题吗？帮忙看一下

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Kevin.Y.K 2019-10-12 17:36
关注
改用selenium吧

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

java爬取app_Java实现爬虫给App提供数据（Jsoup 网络爬虫）
2021-02-26 17:58

weixin_39646688的博客有前人分析了知乎日报、凤凰新闻等 API，根据相应的 URL 可以获取新闻的 JSON 数据。为了锻炼写代码能力，笔者打算爬虫新闻页面，自己获取数据构建 API。二、效果图下图是原网站的页面爬虫获取了数据，展示到 APP ...
java 抓取app数据_Java实现爬虫给App提供数据（Jsoup 网络爬虫）
2021-03-15 18:59

生活教会我们的博客有前人分析了知乎日报、凤凰新闻等 API，根据相应的 URL 可以获取新闻的 JSON 数据。为了锻炼写代码能力，笔者打算爬虫新闻页面，自己获取数据构建 API。二、效果图下图是原网站的页面爬虫获取了数据，展示到 APP ...
java爬app,Java实现爬虫给App提供数据（Jsoup 网络爬虫）
2021-04-18 01:24

未暖咖啡的博客有前人分析了知乎日报、凤凰新闻等 API，根据相应的 URL 可以获取新闻的 JSON 数据。为了锻炼写代码能力，笔者打算爬虫新闻页面，自己获取数据构建 API。二、效果图下图是原网站的页面爬虫获取了数据，展示到 APP ...
Java访问APP下载数据_Java实现爬虫给App提供数据（Jsoup 网络爬虫）
2021-03-15 10:36

罗心澄的博客有前人分析了知乎日报、凤凰新闻等 API，根据相应的 URL 可以获取新闻的 JSON 数据。为了锻炼写代码能力，笔者打算爬虫新闻页面，自己获取数据构建 API。二、效果图下图是原网站的页面爬虫获取了数据，展示到 APP ...
Java实现爬虫给App提供数据（Jsoup 网络爬虫）
2017-05-10 08:43

ljt2724960661的博客有前人分析了知乎日报、凤凰新闻等 API，根据相应的 URL 可以获取新闻的 JSON 数据。为了锻炼写代码能力，笔者打算爬虫新闻页面，自己获取数据构建 API。效果图下图是原网站的页面爬虫获取了数据，...
Java原生实现知乎文章爬取项目实战
2025-08-19 13:47

南城游子的博客在Java中解析HTML文档，开发者有多种选择。一些流行的库包括：Jsoup：一个强大的库，它可以解析和操作HTML，它提供了一种方便的API来提取和操作数据。Jsoup可以将HTML文档转换为一个Document对象，使用DOM风格的方式...
Java爬虫框架调研
2019-09-26 20:41

dejing6575的博客除了Python，Java中也有许多爬虫框架。 nutch apache下的开源爬虫程序，功能丰富，文档完整，有数据抓取解析以及存储的模块。它的特点是规模大。 heritrix 比较成熟地址：internetarchive/heritrix3 · GitHub很...
没有解决我的问题, 去提问

htmlunit+jsoup爬取知乎视频，获取的html字符串中缺少视频信息，如何解决？

1条回答 默认 最新

1条回答默认最新