java 怎么爬取全部加载完成的页面

今天试了下jsoup爬取,结果发现ajax里面的还没加载完它就爬完了,导致ajax的动态
数据都爬不动;然后又试了下htmlunit,也不行;求教!!

3个回答

我使用的设置时间,只有开始加载一段时间后才进行爬,之前我了解可以设置在完成后的事件(具体忘了),但是试了下效果不好,个别网页存在部分
内容永远也不能加载的现象,这样爬去永远也不能进行,此外就是不适用于所有网页都兼容这种方法。还是觉得用线程设置等待时间最好,但可能是
因为我水平比较低吧

da_jie
孤独的阳 你用的什么?jsoup好像没有这个接口,连上去就直接返回了
大约 3 年之前 回复

动态网页最好自己通过Fidder或wireshark或者浏览器的开发者模式弄清楚加载过程 直接爬取相应内容

qq_23958381
qq_23958381 你现在要爬的是什么网站?我具体跟你分析吧
大约 3 年之前 回复
da_jie
孤独的阳 ajax很多,而且还被隐藏起来了
大约 3 年之前 回复
da_jie
孤独的阳 回复qq_23958381: 关键是没找出对应的ajax
大约 3 年之前 回复
qq_23958381
qq_23958381 像你说的ajax 你抓取a.jsp后可以通过处理获得a.jsp中ajax要访问的地址 你就要抓取该地址
大约 3 年之前 回复
qq_23958381
qq_23958381 asp->jsp 手误
大约 3 年之前 回复
qq_23958381
qq_23958381 比如你访问a.jsp 整个网页可能有很多个asp共同生成 你如果直接抓a.jsp是没什么东西的 你要弄清楚a.jsp中你要的部分来自于哪里 然后抓取相应的网页 这个过程就需要类似于Fidder的软件
大约 3 年之前 回复
da_jie
孤独的阳 wireshark不是网络抓包吗?你意思还是用抓包的方法来爬取数据?
大约 3 年之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
java通过jsoup怎么爬取动态加载的 内容
要爬取的url:http://www.zdic.net/c/cipy/ci/?z=啊 要爬取的标签:![图片说明](https://img-ask.csdn.net/upload/201804/10/1523348192_354488.png) 但是在控制台的Elements里可以看到,如![图片说明](https://img-ask.csdn.net/upload/201804/10/1523348522_783648.png) 后来发现 这些数据来源于一个url请求:![图片说明](https://img-ask.csdn.net/upload/201804/10/1523348564_102493.png) 该怎么爬取这个zdiv这个标签的内容,,,
java如何爬取例如优酷视频网站中的视频资源链接并下载
java如何爬取例如优酷视频网站中的视频资源链接并下载?或者其他的一些视频网站,有没有一个比较合理的爬取方式。注意是用java
java爬虫爬取插件数据
请问一下各位大神, java爬虫可以爬取插件数据么? 求各位大神指点一下。 可以的话能把思路告诉我么?
如何用Jsoup爬取网址中懒加载的图片地址?
RT,最近学习用Jsoup爬取极客公园网站的数据,但发现用这个开源库只能爬取到静态的数据,像是首页新闻的图片和作者的头像不能够爬取出来,想问下大神怎么爬取动态加载后的数据呢? 网址: https://www.geekpark.net/ 想爬取的数据: 新闻列表<article-item>下的文章图片<img-cover>和作者头像<img-box>的信息,发现待爬图片网址的属性是 lazy="loaded",在网页的操作是,当网页请滑到相应的位置时,对应的图片加载出来。 不知道这个是不是动态的数据,请大神指导,谢谢!! 想爬取网址的截图如下 ![想获取的两个图片链接](https://img-ask.csdn.net/upload/201809/29/1538234830_153852.png) ![用Jsoup获取到的document](https://img-ask.csdn.net/upload/201809/29/1538234867_764462.png)
java 爬虫爬取网页,,,,
我要使用java爬虫爬取一个网站, 那个网站需要模拟登陆, 用的是第三方的验证码, 而且验证码是点击验证图片后由多张图片组成的。请问一下各位大神这个该怎么破
页面上的加载中的转圈动画是如何实现的,请大神指点!使用的java语言,ajax异步加载!
页面上的加载中的转圈动画是如何实现的,请大神指点!使用的java语言,ajax异步加载!
Java爬虫爬取知乎首页,结果显示为一对中括号,使用的eclipse码的代码。
以下的代码是我照着网上的一篇文章写的,最后出现以下错误: 这是Main类 package aZhihu; import java.util.ArrayList; public class Main { public static void main(String[] args) { // 定义即将访问的链接 String url = "http://www.zhihu.com/explore/recommendations"; // 访问链接并获取页面内容 String content = Spider.SendGet(url); // 获取该页面的所有的知乎对象 ArrayList<Zhihu> myZhihu = Spider.GetZhihu(content); // 打印结果 System.out.println( myZhihu); } } 这是爬虫类: import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection; import java.util.ArrayList; import java.util.regex.Matcher; import java.util.regex.Pattern; public class Spider { static String SendGet(String url) { // 定义一个字符串用来存储网页内容 String result = ""; // 定义一个缓冲字符输入流 BufferedReader in = null; try { // 将string转成url对象 URL realUrl = new URL(url); // 初始化一个链接到那个url的连接 URLConnection connection = realUrl.openConnection(); // 开始实际的连接 connection.connect(); // 初始化 BufferedReader输入流来读取URL的响应 in = new BufferedReader(new InputStreamReader( connection.getInputStream(), "UTF-8")); // 用来临时存储抓取到的每一行的数据 String line; while ((line = in.readLine()) != null) { // 遍历抓取到的每一行并将其存储到result里面 result += line; } } catch (Exception e) { System.out.println("发送GET请求出现异常!" + e); e.printStackTrace(); } // 使用finally来关闭输入流 finally { try { if (in != null) { in.close(); } } catch (Exception e2) { e2.printStackTrace(); } } return result; } static ArrayList<Zhihu> GetZhihu(String content) { // 预定义一个ArrayList来存储结果 ArrayList<Zhihu> results = new ArrayList<Zhihu>(); // 用来匹配标题 Pattern questionPattern = Pattern.compile("question_link.+?>(.+?)<"); Matcher questionMatcher = questionPattern.matcher(content); // 用来匹配url,也就是问题的链接 Pattern urlPattern = Pattern.compile("question_link.+?href=\"(.+?)\""); Matcher urlMatcher = urlPattern.matcher(content); // 问题和链接要均能匹配到 boolean isFind = questionMatcher.find() && urlMatcher.find(); while (isFind) { // 定义一个知乎对象来存储抓取到的信息 Zhihu zhuhuTemp = new Zhihu(); zhuhuTemp.question = questionMatcher.group(1); zhuhuTemp.zhihuUrl = "http://www.zhihu.com" + urlMatcher.group(1); // 添加成功匹配的结果 results.add(zhuhuTemp); // 继续查找下一个匹配对象 isFind = questionMatcher.find() && urlMatcher.find(); } return results; } } 这里是一个zhihu类。存放爬取来的问题 import java.util.ArrayList; public class Zhihu { public String question;// 问题 public String zhihuUrl;// 网页链接 public ArrayList<String> answers;// 存储所有回答的数组 // 构造方法初始化数据 public Zhihu() { question = ""; zhihuUrl = ""; answers = new ArrayList<String>(); } @Override public String toString() { return "问题:" + question + "\n链接:" + zhihuUrl + "\n回答:" + answers + "\n"; } }
怎样爬取网易云音乐上某人的评论
本人会java 但不懂爬取数据,想请教一下怎样用java爬取到网易云上某人的所有评论,其他语言实现也可以,求教。
JAVA爬取页面出现405错误
在做爬取留言的测试时,出来405,网页是:http://liuyan.people.com.cn/threads/list?fid=1079 在用开发工具看XHR有queryThreadList有完整的JSON数据,但直接访问http://liuyan.people.com.cn/threads/queryThreadsList?fid=1079&lastItem=0出现HTTP Status 405 – Method Not Allowed 源网页加载JSON数据: <!--加载--> <script type="text/javascript"> Threads.initThreadsListPage(); </script> <!--加载 end--> 代码如下: url="http://liuyan.people.com.cn/threads/queryThreadsList?fid=1079&lastItem=0"; Document doc = Jsoup.connect(url).get(); System.out.println("url:"+url+" doc:"+doc); 希望牛人提供帮助,如何获取完整留言的JSON,谢谢! JSON如下: {"result":"success","responseData":[{"tid":5656180,"userId":1840290,"fid":1079,"typeId":6,"domainId":9,"topicId":0,"nickName":"x***","subject":"第二次:乐化农民建
Java同时爬取多个网站房产信息数据
如何解决Jsoup爬取数据时,当存在二级也面时爬取过于缓慢问题?
java如何动态加载.java文件
运行的web工程(tomcat容器),java如何动态加载.java文件!
Java爬虫在爬取动态生成数据的网页时怎样效率最高?
大佬们好,我目前刚刚开始研究Java爬虫。在尝试爬取通过Javascript生成数据的网页时,我使用了HTMLUnit去模拟JS的各种操作,但是即便使用了多线程,也觉得效率很一般。希望各位大佬提供一个最高效的爬虫方法。感谢!
Extjs5 + java 如何获取页面所加载的图片的路径
各位大神,有什么办法可以获取到加载图片的路径啊?求助!!! 例如,页面有张图片,我现在想知道这个图片的加载路径是那个 有大大可以帮帮么,给个思路也好啊!!! 就好就有例子提供来参考参考!!!谢谢
java如何爬取微博信息,或者通过接口获取微博信息
项目需求,希望获得几十个新浪微博的关注数、粉丝数以及发布微博的数量,没有提供接口,只能通过网页抓取这些信息。但是我网上查找爬取的方法,许多都过时了不能用,没过时的,也总是报错,请各位大神指导一下。 或者有相关接口,不用网页爬取,也可以。 微博是新浪微博。
关于java爬虫,模拟登陆招商银行,爬取银行流水信息
关于java爬虫,模拟登陆招商银行,爬取银行流水信息 因为这个有人做,所以了解到是用爬虫做的,所以问下大家如何实现?
Java 模拟登陆 爬取网页
请教大神们, 我现在想爬取Kroger.com上面一些商品信息,但需要登录,我可以手动登陆后,把得到的cookie设置在Java里直接跳过登录访问吗
java怎么实现上拉加载更多的功能
java怎么实现上拉加载更多的功能,要上拉一次会出现五条数据
java 小说爬虫报错 Connection reset
java爬虫在爬到一定量的数据之后就会报错,而且每次报错都在固定的地方
用java写一个程序爬取一个网页的内容
要爬取http://epaper.632news.com/zzrb/html/2016-06/07/node_2.htm这个页面,要整个页面的内容,用java程序
Java学习的正确打开方式
在博主认为,对于入门级学习java的最佳学习方法莫过于视频+博客+书籍+总结,前三者博主将淋漓尽致地挥毫于这篇博客文章中,至于总结在于个人,实际上越到后面你会发现学习的最好方式就是阅读参考官方文档其次就是国内的书籍,博客次之,这又是一个层次了,这里暂时不提后面再谈。博主将为各位入门java保驾护航,各位只管冲鸭!!!上天是公平的,只要不辜负时间,时间自然不会辜负你。 何谓学习?博主所理解的学习,它是一个过程,是一个不断累积、不断沉淀、不断总结、善于传达自己的个人见解以及乐于分享的过程。
程序员必须掌握的核心算法有哪些?
由于我之前一直强调数据结构以及算法学习的重要性,所以就有一些读者经常问我,数据结构与算法应该要学习到哪个程度呢?,说实话,这个问题我不知道要怎么回答你,主要取决于你想学习到哪些程度,不过针对这个问题,我稍微总结一下我学过的算法知识点,以及我觉得值得学习的算法。这些算法与数据结构的学习大多数是零散的,并没有一本把他们全部覆盖的书籍。下面是我觉得值得学习的一些算法以及数据结构,当然,我也会整理一些看过...
有哪些让程序员受益终生的建议
从业五年多,辗转两个大厂,出过书,创过业,从技术小白成长为基层管理,联合几个业内大牛回答下这个问题,希望能帮到大家,记得帮我点赞哦。 敲黑板!!!读了这篇文章,你将知道如何才能进大厂,如何实现财务自由,如何在工作中游刃有余,这篇文章很长,但绝对是精品,记得帮我点赞哦!!!! 一腔肺腑之言,能看进去多少,就看你自己了!!! 目录: 在校生篇: 为什么要尽量进大厂? 如何选择语言及方...
大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了
大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频学习网站、非视频学习网站、软件下载、面试/求职必备网站。 注意:文中提到的所有资源,文末我都给你整理好了,你们只管拿去,如果觉得不错,转发、分享就是最大的支持了。 一、电子书搜索 对于大部分程序员...
linux系列之常用运维命令整理笔录
本博客记录工作中需要的linux运维命令,大学时候开始接触linux,会一些基本操作,可是都没有整理起来,加上是做开发,不做运维,有些命令忘记了,所以现在整理成博客,当然vi,文件操作等就不介绍了,慢慢积累一些其它拓展的命令,博客不定时更新 free -m 其中:m表示兆,也可以用g,注意都要小写 Men:表示物理内存统计 total:表示物理内存总数(total=used+free) use...
比特币原理详解
一、什么是比特币 比特币是一种电子货币,是一种基于密码学的货币,在2008年11月1日由中本聪发表比特币白皮书,文中提出了一种去中心化的电子记账系统,我们平时的电子现金是银行来记账,因为银行的背后是国家信用。去中心化电子记账系统是参与者共同记账。比特币可以防止主权危机、信用风险。其好处不多做赘述,这一层面介绍的文章很多,本文主要从更深层的技术原理角度进行介绍。 二、问题引入 假设现有4个人...
程序员接私活怎样防止做完了不给钱?
首先跟大家说明一点,我们做 IT 类的外包开发,是非标品开发,所以很有可能在开发过程中会有这样那样的需求修改,而这种需求修改很容易造成扯皮,进而影响到费用支付,甚至出现做完了项目收不到钱的情况。 那么,怎么保证自己的薪酬安全呢? 我们在开工前,一定要做好一些证据方面的准备(也就是“讨薪”的理论依据),这其中最重要的就是需求文档和验收标准。一定要让需求方提供这两个文档资料作为开发的基础。之后开发...
网页实现一个简单的音乐播放器(大佬别看。(⊙﹏⊙))
今天闲着无事,就想写点东西。然后听了下歌,就打算写个播放器。 于是乎用h5 audio的加上js简单的播放器完工了。 演示地点演示 html代码如下` music 这个年纪 七月的风 音乐 ` 然后就是css`*{ margin: 0; padding: 0; text-decoration: none; list-...
Python十大装B语法
Python 是一种代表简单思想的语言,其语法相对简单,很容易上手。不过,如果就此小视 Python 语法的精妙和深邃,那就大错特错了。本文精心筛选了最能展现 Python 语法之精妙的十个知识点,并附上详细的实例代码。如能在实战中融会贯通、灵活使用,必将使代码更为精炼、高效,同时也会极大提升代码B格,使之看上去更老练,读起来更优雅。
数据库优化 - SQL优化
以实际SQL入手,带你一步一步走上SQL优化之路!
2019年11月中国大陆编程语言排行榜
2019年11月2日,我统计了某招聘网站,获得有效程序员招聘数据9万条。针对招聘信息,提取编程语言关键字,并统计如下: 编程语言比例 rank pl_ percentage 1 java 33.62% 2 cpp 16.42% 3 c_sharp 12.82% 4 javascript 12.31% 5 python 7.93% 6 go 7.25% 7 p...
通俗易懂地给女朋友讲:线程池的内部原理
餐盘在灯光的照耀下格外晶莹洁白,女朋友拿起红酒杯轻轻地抿了一小口,对我说:“经常听你说线程池,到底线程池到底是个什么原理?”
《奇巧淫技》系列-python!!每天早上八点自动发送天气预报邮件到QQ邮箱
将代码部署服务器,每日早上定时获取到天气数据,并发送到邮箱。 也可以说是一个小型人工智障。 知识可以运用在不同地方,不一定非是天气预报。
经典算法(5)杨辉三角
杨辉三角 是经典算法,这篇博客对它的算法思想进行了讲解,并有完整的代码实现。
英特尔不为人知的 B 面
从 PC 时代至今,众人只知在 CPU、GPU、XPU、制程、工艺等战场中,英特尔在与同行硬件芯片制造商们的竞争中杀出重围,且在不断的成长进化中,成为全球知名的半导体公司。殊不知,在「刚硬」的背后,英特尔「柔性」的软件早已经做到了全方位的支持与支撑,并持续发挥独特的生态价值,推动产业合作共赢。 而对于这一不知人知的 B 面,很多人将其称之为英特尔隐形的翅膀,虽低调,但是影响力却不容小觑。 那么,在...
腾讯算法面试题:64匹马8个跑道需要多少轮才能选出最快的四匹?
昨天,有网友私信我,说去阿里面试,彻底的被打击到了。问了为什么网上大量使用ThreadLocal的源码都会加上private static?他被难住了,因为他从来都没有考虑过这个问题。无独有偶,今天笔者又发现有网友吐槽了一道腾讯的面试题,我们一起来看看。 腾讯算法面试题:64匹马8个跑道需要多少轮才能选出最快的四匹? 在互联网职场论坛,一名程序员发帖求助到。二面腾讯,其中一个算法题:64匹...
面试官:你连RESTful都不知道我怎么敢要你?
干货,2019 RESTful最贱实践
为啥国人偏爱Mybatis,而老外喜欢Hibernate/JPA呢?
关于SQL和ORM的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行了一番讨论,感触还是有一些,于是就有了今天这篇文。 声明:本文不会下关于Mybatis和JPA两个持久层框架哪个更好这样的结论。只是摆事实,讲道理,所以,请各位看官勿喷。 一、事件起因 关于Mybatis和JPA孰优孰劣的问题,争论已经很多年了。一直也没有结论,毕竟每个人的喜好和习惯是大不相同的。我也看...
白话阿里巴巴Java开发手册高级篇
不久前,阿里巴巴发布了《阿里巴巴Java开发手册》,总结了阿里巴巴内部实际项目开发过程中开发人员应该遵守的研发流程规范,这些流程规范在一定程度上能够保证最终的项目交付质量,通过在时间中总结模式,并推广给广大开发人员,来避免研发人员在实践中容易犯的错误,确保最终在大规模协作的项目中达成既定目标。 无独有偶,笔者去年在公司里负责升级和制定研发流程、设计模板、设计标准、代码标准等规范,并在实际工作中进行...
SQL-小白最佳入门sql查询一
不要偷偷的查询我的个人资料,即使你再喜欢我,也不要这样,真的不好;
redis分布式锁,面试官请随便问,我都会
文章有点长并且绕,先来个图片缓冲下! 前言 现在的业务场景越来越复杂,使用的架构也就越来越复杂,分布式、高并发已经是业务要求的常态。像腾讯系的不少服务,还有CDN优化、异地多备份等处理。 说到分布式,就必然涉及到分布式锁的概念,如何保证不同机器不同线程的分布式锁同步呢? 实现要点 互斥性,同一时刻,智能有一个客户端持有锁。 防止死锁发生,如果持有锁的客户端崩溃没有主动释放锁,也要保证锁可以正常释...
项目中的if else太多了,该怎么重构?
介绍 最近跟着公司的大佬开发了一款IM系统,类似QQ和微信哈,就是聊天软件。我们有一部分业务逻辑是这样的 if (msgType = "文本") { // dosomething } else if(msgType = "图片") { // doshomething } else if(msgType = "视频") { // doshomething } else { // doshom...
Nginx 原理和架构
Nginx 是一个免费的,开源的,高性能的 HTTP 服务器和反向代理,以及 IMAP / POP3 代理服务器。Nginx 以其高性能,稳定性,丰富的功能,简单的配置和低资源消耗而闻名。 Nginx 的整体架构 Nginx 里有一个 master 进程和多个 worker 进程。master 进程并不处理网络请求,主要负责调度工作进程:加载配置、启动工作进程及非停升级。worker 进程负责处...
Python 编程开发 实用经验和技巧
Python是一门很灵活的语言,也有很多实用的方法,有时候实现一个功能可以用多种方法实现,我这里总结了一些常用的方法和技巧,包括小数保留指定位小数、判断变量的数据类型、类方法@classmethod、制表符中文对齐、遍历字典、datetime.timedelta的使用等,会持续更新......
YouTube排名第一的励志英文演讲《Dream(梦想)》
Idon’t know what that dream is that you have, I don't care how disappointing it might have been as you've been working toward that dream,but that dream that you’re holding in your mind, that it’s po...
“狗屁不通文章生成器”登顶GitHub热榜,分分钟写出万字形式主义大作
一、垃圾文字生成器介绍 最近在浏览GitHub的时候,发现了这样一个骨骼清奇的雷人项目,而且热度还特别高。 项目中文名:狗屁不通文章生成器 项目英文名:BullshitGenerator 根据作者的介绍,他是偶尔需要一些中文文字用于GUI开发时测试文本渲染,因此开发了这个废话生成器。但由于生成的废话实在是太过富于哲理,所以最近已经被小伙伴们给玩坏了。 他的文风可能是这样的: 你发现,...
程序员:我终于知道post和get的区别
是一个老生常谈的话题,然而随着不断的学习,对于以前的认识有很多误区,所以还是需要不断地总结的,学而时习之,不亦说乎
《程序人生》系列-这个程序员只用了20行代码就拿了冠军
你知道的越多,你不知道的越多 点赞再看,养成习惯GitHub上已经开源https://github.com/JavaFamily,有一线大厂面试点脑图,欢迎Star和完善 前言 这一期不算《吊打面试官》系列的,所有没前言我直接开始。 絮叨 本来应该是没有这期的,看过我上期的小伙伴应该是知道的嘛,双十一比较忙嘛,要值班又要去帮忙拍摄年会的视频素材,还得搞个程序员一天的Vlog,还要写BU...
加快推动区块链技术和产业创新发展,2019可信区块链峰会在京召开
11月8日,由中国信息通信研究院、中国通信标准化协会、中国互联网协会、可信区块链推进计划联合主办,科技行者协办的2019可信区块链峰会将在北京悠唐皇冠假日酒店开幕。   区块链技术被认为是继蒸汽机、电力、互联网之后,下一代颠覆性的核心技术。如果说蒸汽机释放了人类的生产力,电力解决了人类基本的生活需求,互联网彻底改变了信息传递的方式,区块链作为构造信任的技术有重要的价值。   1...
Java世界最常用的工具类库
Apache Commons Apache Commons有很多子项目 Google Guava 参考博客
相关热词 c#委托 逆变与协变 c#新建一个项目 c#获取dll文件路径 c#子窗体调用主窗体事件 c# 拷贝目录 c# 调用cef 网页填表c#源代码 c#部署端口监听项目、 c#接口中的属性使用方法 c# 昨天
立即提问