Java同时爬取多个网站房产信息数据
 如何解决Jsoup爬取数据时,当存在二级也面时爬取过于缓慢问题?

2个回答

不明白为什么慢,是不是受限于带宽哦。 建议考虑分两步 1 只爬取并保存成html (看看时间是否慢) 2 只解析已下载的html(看看时间是否慢)

慢其实就两种原因:1是网速慢,2是代码慢。

网速慢只能硬件解决。
代码慢可能是代码质量原因,或者服务器硬件达到了瓶颈。

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
java爬虫爬取插件数据

请问一下各位大神, java爬虫可以爬取插件数据么? 求各位大神指点一下。 可以的话能把思路告诉我么?

Java爬虫在爬取动态生成数据的网页时怎样效率最高?

大佬们好,我目前刚刚开始研究Java爬虫。在尝试爬取通过Javascript生成数据的网页时,我使用了HTMLUnit去模拟JS的各种操作,但是即便使用了多线程,也觉得效率很一般。希望各位大佬提供一个最高效的爬虫方法。感谢!

java如何爬取例如优酷视频网站中的视频资源链接并下载

java如何爬取例如优酷视频网站中的视频资源链接并下载?或者其他的一些视频网站,有没有一个比较合理的爬取方式。注意是用java

java 爬虫爬取网页,,,,

我要使用java爬虫爬取一个网站, 那个网站需要模拟登陆, 用的是第三方的验证码, 而且验证码是点击验证图片后由多张图片组成的。请问一下各位大神这个该怎么破

java如何爬取微博信息,或者通过接口获取微博信息

项目需求,希望获得几十个新浪微博的关注数、粉丝数以及发布微博的数量,没有提供接口,只能通过网页抓取这些信息。但是我网上查找爬取的方法,许多都过时了不能用,没过时的,也总是报错,请各位大神指导一下。 或者有相关接口,不用网页爬取,也可以。 微博是新浪微博。

用java写一个程序爬取一个网页的内容

要爬取http://epaper.632news.com/zzrb/html/2016-06/07/node_2.htm这个页面,要整个页面的内容,用java程序

java怎样爬取猫眼票房数据

前台页面显示正常数据,但是查看源码的时候出现乱码,java怎样解决这个问题,各位大神帮帮忙,小弟感激不尽,大神们如果嫌弃金币少的话,我可以追加的,拜托拜托了

JAVA网页数据爬取,保存为xml

各位好,我想爬取网页上的数据用作绘图,但是现在只能将网页代码下载下来不知道该怎么提取?用JAVA写的。希望可以知道如何从网站上爬取数据,并保存为xml 的格式。在此谢谢![图片说明](http://forum.csdn.net/PointForum/ui/scripts/csdn/Plugin/003/onion/1.gif)![图片说明](http://forum.csdn.net/PointForum/ui/scripts/csdn/Plugin/003/onion/3.gif)

java爬取银行网点数据,请大神帮忙,代码

现在需要五大行的网点数据,要从五大行的官网取,需要用java写爬虫,获取如建行下 的各个省的各个市或者县下的网点数据,有没大神帮我一把,本人菜鸟, 请大神帮忙

java通过jsoup怎么爬取动态加载的 内容

要爬取的url:http://www.zdic.net/c/cipy/ci/?z=啊 要爬取的标签:![图片说明](https://img-ask.csdn.net/upload/201804/10/1523348192_354488.png) 但是在控制台的Elements里可以看到,如![图片说明](https://img-ask.csdn.net/upload/201804/10/1523348522_783648.png) 后来发现 这些数据来源于一个url请求:![图片说明](https://img-ask.csdn.net/upload/201804/10/1523348564_102493.png) 该怎么爬取这个zdiv这个标签的内容,,,

JAVA爬取图片验证码问题

http://jx.189.cn/public/v4/common/control/page/image.jsp?date=&y7bRbP=gfThrac_X.j_X.j_X.cv8nSYNbnPZjEjl62SJullzFgqqhL 这是要爬取的地址,使用postman发送请求,发现必须有cookie: ![图片说明](https://img-ask.csdn.net/upload/201906/29/1561789261_446791.png) 以及要携带一个参数: ![图片说明](https://img-ask.csdn.net/upload/201906/29/1561789320_295821.png) 请问如何才能拿到cookie与该参数? 使用com.gargoylesoftware.htmlunit: webClient.getCookieManager().getCookie(); 只能拿到一个cookie.

Java 模拟登陆 爬取网页

请教大神们, 我现在想爬取Kroger.com上面一些商品信息,但需要登录,我可以手动登陆后,把得到的cookie设置在Java里直接跳过登录访问吗

爬取天眼查的企业信息

有没有什么工具可以爬取天眼查网站中的企业信息?或者爬取天眼查企业信息的相关的Java代码?

java 怎么爬取全部加载完成的页面

今天试了下jsoup爬取,结果发现ajax里面的还没加载完它就爬完了,导致ajax的动态 数据都爬不动;然后又试了下htmlunit,也不行;求教!!

JAVA爬取页面出现405错误

在做爬取留言的测试时,出来405,网页是:http://liuyan.people.com.cn/threads/list?fid=1079 在用开发工具看XHR有queryThreadList有完整的JSON数据,但直接访问http://liuyan.people.com.cn/threads/queryThreadsList?fid=1079&lastItem=0出现HTTP Status 405 – Method Not Allowed 源网页加载JSON数据: <!--加载--> <script type="text/javascript"> Threads.initThreadsListPage(); </script> <!--加载 end--> 代码如下: url="http://liuyan.people.com.cn/threads/queryThreadsList?fid=1079&lastItem=0"; Document doc = Jsoup.connect(url).get(); System.out.println("url:"+url+" doc:"+doc); 希望牛人提供帮助,如何获取完整留言的JSON,谢谢! JSON如下: {"result":"success","responseData":[{"tid":5656180,"userId":1840290,"fid":1079,"typeId":6,"domainId":9,"topicId":0,"nickName":"x***","subject":"第二次:乐化农民建

java爬取企查查网站的时候多次遇到window.location.href

- 爬取的过程之中连续多次返回以下结果,困扰了许多天,百度了许多,都为找到合理的解决方案,感谢大神解惑 ``` <html> <head> <script>window.location.href='https://www.qichacha.com/index_verify?type=companysearch&back=/search?key=%E7%A6%8F%E5%BB%BA%E9%9B%8D%E6%A0%BC%E5%BB%BA%E8%AE%BE%E5%B7%A5%E7%A8%8B%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8';</script> </head> <body></body> </html> ``` - 爬虫使用的是HttpURLConnection 和蘑菇代理,访问的页面 ``` URL url = new URL(targetUrl); Authenticator.setDefault(new ProxyAuthenticator(proxyUser, proxyPass)); // 创建代理服务器地址对象 InetSocketAddress addr = new InetSocketAddress(proxyServer, proxyPort); // 创建HTTP类型代理对象 Proxy proxy = new Proxy(Proxy.Type.HTTP, addr); // 设置通过代理访问目标页面 HttpURLConnection connection = (HttpURLConnection) url.openConnection(proxy); ```

跪求大神帮忙写一个非常简单的爬虫程序,爬取网页上的表格信息!

跪求大神帮忙写一个非常简单的爬虫程序,爬取网页上的表格信息! 网页网址为:https://mp.weixin.qq.com/s/li7BbNrZy-eOm79D6Eh-mA 网页上的内容特别简单,就是一个一个的表格,表格里面都是固定的房产出租售的信息,希望能用爬虫爬取出来,然后汇总导出到excel表格中。 ![图片说明](https://img-ask.csdn.net/upload/201908/01/1564636661_814719.png) 希望大神有空了能帮忙给写一些代码,非常感谢!

如何爬取动态加载的网页内容呢?

能给个简单的案例吗?在线等急。附上网站网址:http://m.cheok.com

Java爬虫爬取知乎首页,结果显示为一对中括号,使用的eclipse码的代码。

以下的代码是我照着网上的一篇文章写的,最后出现以下错误: 这是Main类 package aZhihu; import java.util.ArrayList; public class Main { public static void main(String[] args) { // 定义即将访问的链接 String url = "http://www.zhihu.com/explore/recommendations"; // 访问链接并获取页面内容 String content = Spider.SendGet(url); // 获取该页面的所有的知乎对象 ArrayList<Zhihu> myZhihu = Spider.GetZhihu(content); // 打印结果 System.out.println( myZhihu); } } 这是爬虫类: import java.io.BufferedReader; import java.io.InputStreamReader; import java.net.URL; import java.net.URLConnection; import java.util.ArrayList; import java.util.regex.Matcher; import java.util.regex.Pattern; public class Spider { static String SendGet(String url) { // 定义一个字符串用来存储网页内容 String result = ""; // 定义一个缓冲字符输入流 BufferedReader in = null; try { // 将string转成url对象 URL realUrl = new URL(url); // 初始化一个链接到那个url的连接 URLConnection connection = realUrl.openConnection(); // 开始实际的连接 connection.connect(); // 初始化 BufferedReader输入流来读取URL的响应 in = new BufferedReader(new InputStreamReader( connection.getInputStream(), "UTF-8")); // 用来临时存储抓取到的每一行的数据 String line; while ((line = in.readLine()) != null) { // 遍历抓取到的每一行并将其存储到result里面 result += line; } } catch (Exception e) { System.out.println("发送GET请求出现异常!" + e); e.printStackTrace(); } // 使用finally来关闭输入流 finally { try { if (in != null) { in.close(); } } catch (Exception e2) { e2.printStackTrace(); } } return result; } static ArrayList<Zhihu> GetZhihu(String content) { // 预定义一个ArrayList来存储结果 ArrayList<Zhihu> results = new ArrayList<Zhihu>(); // 用来匹配标题 Pattern questionPattern = Pattern.compile("question_link.+?>(.+?)<"); Matcher questionMatcher = questionPattern.matcher(content); // 用来匹配url,也就是问题的链接 Pattern urlPattern = Pattern.compile("question_link.+?href=\"(.+?)\""); Matcher urlMatcher = urlPattern.matcher(content); // 问题和链接要均能匹配到 boolean isFind = questionMatcher.find() && urlMatcher.find(); while (isFind) { // 定义一个知乎对象来存储抓取到的信息 Zhihu zhuhuTemp = new Zhihu(); zhuhuTemp.question = questionMatcher.group(1); zhuhuTemp.zhihuUrl = "http://www.zhihu.com" + urlMatcher.group(1); // 添加成功匹配的结果 results.add(zhuhuTemp); // 继续查找下一个匹配对象 isFind = questionMatcher.find() && urlMatcher.find(); } return results; } } 这里是一个zhihu类。存放爬取来的问题 import java.util.ArrayList; public class Zhihu { public String question;// 问题 public String zhihuUrl;// 网页链接 public ArrayList<String> answers;// 存储所有回答的数组 // 构造方法初始化数据 public Zhihu() { question = ""; zhihuUrl = ""; answers = new ArrayList<String>(); } @Override public String toString() { return "问题:" + question + "\n链接:" + zhihuUrl + "\n回答:" + answers + "\n"; } }

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

程序员请照顾好自己,周末病魔差点一套带走我。

程序员在一个周末的时间,得了重病,差点当场去世,还好及时挽救回来了。

和黑客斗争的 6 天!

互联网公司工作,很难避免不和黑客们打交道,我呆过的两家互联网公司,几乎每月每天每分钟都有黑客在公司网站上扫描。有的是寻找 Sql 注入的缺口,有的是寻找线上服务器可能存在的漏洞,大部分都...

点沙成金:英特尔芯片制造全过程揭密

“亚马逊丛林里的蝴蝶扇动几下翅膀就可能引起两周后美国德州的一次飓风……” 这句人人皆知的话最初用来描述非线性系统中微小参数的变化所引起的系统极大变化。 而在更长的时间尺度内,我们所生活的这个世界就是这样一个异常复杂的非线性系统…… 水泥、穹顶、透视——关于时间与技艺的蝴蝶效应 公元前3000年,古埃及人将尼罗河中挖出的泥浆与纳特龙盐湖中的矿物盐混合,再掺入煅烧石灰石制成的石灰,由此得来了人...

上班一个月,后悔当初着急入职的选择了

最近有个老铁,告诉我说,上班一个月,后悔当初着急入职现在公司了。他之前在美图做手机研发,今年美图那边今年也有一波组织优化调整,他是其中一个,在协商离职后,当时捉急找工作上班,因为有房贷供着,不能没有收入来源。所以匆忙选了一家公司,实际上是一个大型外包公司,主要派遣给其他手机厂商做外包项目。**当时承诺待遇还不错,所以就立马入职去上班了。但是后面入职后,发现薪酬待遇这块并不是HR所说那样,那个HR自...

女程序员,为什么比男程序员少???

昨天看到一档综艺节目,讨论了两个话题:(1)中国学生的数学成绩,平均下来看,会比国外好?为什么?(2)男生的数学成绩,平均下来看,会比女生好?为什么?同时,我又联想到了一个技术圈经常讨...

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

外包程序员的幸福生活

今天给你们讲述一个外包程序员的幸福生活。男主是Z哥,不是在外包公司上班的那种,是一名自由职业者,接外包项目自己干。接下来讲的都是真人真事。 先给大家介绍一下男主,Z哥,老程序员,是我十多年前的老同事,技术大牛,当过CTO,也创过业。因为我俩都爱好喝酒、踢球,再加上住的距离不算远,所以一直也断断续续的联系着,我对Z哥的状况也有大概了解。 Z哥几年前创业失败,后来他开始干起了外包,利用自己的技术能...

C++11:一些微小的变化(新的数据类型、template表达式内的空格、nullptr、std::nullptr_t)

本文介绍一些C++的两个新特性,它们虽然微小,但对你的编程十分重要 一、Template表达式内的空格 C++11标准之前建议在“在两个template表达式的闭符之间放一个空格”的要求已经过时了 例如: vector&lt;list&lt;int&gt; &gt;; //C++11之前 vector&lt;list&lt;int&gt;&gt;; //C++11 二、nullptr ...

优雅的替换if-else语句

场景 日常开发,if-else语句写的不少吧??当逻辑分支非常多的时候,if-else套了一层又一层,虽然业务功能倒是实现了,但是看起来是真的很不优雅,尤其是对于我这种有强迫症的程序"猿",看到这么多if-else,脑袋瓜子就嗡嗡的,总想着解锁新姿势:干掉过多的if-else!!!本文将介绍三板斧手段: 优先判断条件,条件不满足的,逻辑及时中断返回; 采用策略模式+工厂模式; 结合注解,锦...

深入剖析Springboot启动原理的底层源码,再也不怕面试官问了!

大家现在应该都对Springboot很熟悉,但是你对他的启动原理了解吗?

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

为什么你不想学习?只想玩?人是如何一步一步废掉的

不知道是不是只有我这样子,还是你们也有过类似的经历。 上学的时候总有很多光辉历史,学年名列前茅,或者单科目大佬,但是虽然慢慢地长大了,你开始懈怠了,开始废掉了。。。 什么?你说不知道具体的情况是怎么样的? 我来告诉你: 你常常潜意识里或者心理觉得,自己真正的生活或者奋斗还没有开始。总是幻想着自己还拥有大把时间,还有无限的可能,自己还能逆风翻盘,只不是自己还没开始罢了,自己以后肯定会变得特别厉害...

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试:第十六章:Java中级开发(16k)

HashMap底层实现原理,红黑树,B+树,B树的结构原理 Spring的AOP和IOC是什么?它们常见的使用场景有哪些?Spring事务,事务的属性,传播行为,数据库隔离级别 Spring和SpringMVC,MyBatis以及SpringBoot的注解分别有哪些?SpringMVC的工作原理,SpringBoot框架的优点,MyBatis框架的优点 SpringCould组件有哪些,他们...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

面试了一个 31 岁程序员,让我有所触动,30岁以上的程序员该何去何从?

最近面试了一个31岁8年经验的程序猿,让我有点感慨,大龄程序猿该何去何从。

【阿里P6面经】二本,curd两年,疯狂复习,拿下阿里offer

二本的读者,在老东家不断学习,最后逆袭

大三实习生,字节跳动面经分享,已拿Offer

说实话,自己的算法,我一个不会,太难了吧

程序员垃圾简历长什么样?

已经连续五年参加大厂校招、社招的技术面试工作,简历看的不下于万份 这篇文章会用实例告诉你,什么是差的程序员简历! 疫情快要结束了,各个公司也都开始春招了,作为即将红遍大江南北的新晋UP主,那当然要为小伙伴们做点事(手动狗头)。 就在公众号里公开征简历,义务帮大家看,并一一点评。《启舰:春招在即,义务帮大家看看简历吧》 一石激起千层浪,三天收到两百多封简历。 花光了两个星期的所有空闲时...

《经典算法案例》01-08:如何使用质数设计扫雷(Minesweeper)游戏

我们都玩过Windows操作系统中的经典游戏扫雷(Minesweeper),如果把质数当作一颗雷,那么,表格中红色的数字哪些是雷(质数)?您能找出多少个呢?文中用列表的方式罗列了10000以内的自然数、质数(素数),6的倍数等,方便大家观察质数的分布规律及特性,以便对算法求解有指导意义。另外,判断质数是初学算法,理解算法重要性的一个非常好的案例。

《Oracle Java SE编程自学与面试指南》最佳学习路线图(2020最新版)

正确选择比瞎努力更重要!

面试官:你连SSO都不懂,就别来面试了

大厂竟然要考我SSO,卧槽。

微软为一人收购一公司?破解索尼程序、写黑客小说,看他彪悍的程序人生!...

作者 | 伍杏玲出品 | CSDN(ID:CSDNnews)格子衬衫、常掉发、双肩包、修电脑、加班多……这些似乎成了大众给程序员的固定标签。近几年流行的“跨界风”开始刷新人们对程序员的...

终于,月薪过5万了!

来看几个问题想不想月薪超过5万?想不想进入公司架构组?想不想成为项目组的负责人?想不想成为spring的高手,超越99%的对手?那么本文内容是你必须要掌握的。本文主要详解bean的生命...

我说我懂多线程,面试官立马给我发了offer

不小心拿了几个offer,有点烦

自从喜欢上了B站这12个UP主,我越来越觉得自己是个废柴了!

不怕告诉你,我自从喜欢上了这12个UP主,哔哩哔哩成为了我手机上最耗电的软件,几乎每天都会看,可是吧,看的越多,我就越觉得自己是个废柴,唉,老天不公啊,不信你看看…… 间接性踌躇满志,持续性混吃等死,都是因为你们……但是,自己的学习力在慢慢变强,这是不容忽视的,推荐给你们! 都说B站是个宝,可是有人不会挖啊,没事,今天咱挖好的送你一箩筐,首先啊,我在B站上最喜欢看这个家伙的视频了,为啥 ,咱撇...

立即提问
相关内容推荐