JSoup获取html源码显示不同怎么获取图二中的内容?

想要获取图二字符串该怎么做?

图一 起点页面显示为
图片说明

图二为 查看源代码出现的html实体
图片说明

图三为程序中获取到输出的内容

图片说明

代码如下:

public static void main(String[] args) throws IOException, DataFormatException {
        Document jsoup = Jsoup.parse(new URL("https://book.qidian.com/info/1013414929"),999999);
        Elements bookinfo = jsoup.select(".book-info p em span");
        String webclass = null;
        for(int i = 0,len = bookinfo.size();i<len;i++) {
            webclass = bookinfo.get(i).attr("class");
            System.out.println(bookinfo.get(i));
        }
    }

1个回答

JSoup获取html源码获取的只是初始的网页代码
但是网页里有ajax脚本,在执行过程中可以动态加载一些内容,这个获取不到。

你需要做的是,用浏览器f12的抓包功能看它异步加载了什么数据,然后照着去请求这些地址,获得加载的数据。

weixin_44645285
weixin_44645285 图一是F12 看到的 图二是 看网页源代码的时候发现的,图三是java控制台打印输出的 而且我这个也没有涉及到ajax 只是一个页面的请求
8 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!