weixin_44645285 2019-02-08 23:49 采纳率: 0%
浏览 487

JSoup获取html源码显示不同怎么获取图二中的内容?

想要获取图二字符串该怎么做?

图一 起点页面显示为
图片说明

图二为 查看源代码出现的html实体
图片说明

图三为程序中获取到输出的内容

图片说明

代码如下:

public static void main(String[] args) throws IOException, DataFormatException {
        Document jsoup = Jsoup.parse(new URL("https://book.qidian.com/info/1013414929"),999999);
        Elements bookinfo = jsoup.select(".book-info p em span");
        String webclass = null;
        for(int i = 0,len = bookinfo.size();i<len;i++) {
            webclass = bookinfo.get(i).attr("class");
            System.out.println(bookinfo.get(i));
        }
    }
  • 写回答

1条回答 默认 最新

  • threenewbee 2019-02-08 23:55
    关注

    JSoup获取html源码获取的只是初始的网页代码
    但是网页里有ajax脚本,在执行过程中可以动态加载一些内容,这个获取不到。

    你需要做的是,用浏览器f12的抓包功能看它异步加载了什么数据,然后照着去请求这些地址,获得加载的数据。

    评论

报告相同问题?

悬赏问题

  • ¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
  • ¥15 (希望可以解决问题)ma和mb文件无法正常打开,打开后是空白,但是有正常内存占用,但可以在打开Maya应用程序后打开场景ma和mb格式。
  • ¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
  • ¥20 腾讯企业邮箱邮件可以恢复么
  • ¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗?
  • ¥15 错误 LNK2001 无法解析的外部符号
  • ¥50 安装pyaudiokits失败
  • ¥15 计组这些题应该咋做呀
  • ¥60 更换迈创SOL6M4AE卡的时候,驱动要重新装才能使用,怎么解决?
  • ¥15 让node服务器有自动加载文件的功能