最近自己在写一爬虫,用到了httpclient4.2.X ,如果开启过多的线程去抓取数据,有时候会出现返回数据不完全的情况。请问大家有没有什么好的解决方案?
6条回答 默认 最新
- h248980496 2013-07-04 07:52关注
请求超时
httpclient.getParams().setParameter(CoreConnectionPNames.CONNECTION_TIMEOUT, 60000);
读取超时
httpclient.getParams().setParameter(CoreConnectionPNames.SO_TIMEOUT, 60000);根据你的情况,应该只需要设置读取超时就行了,另外,java端访问页面,部分子页面的站点可能本身延时就比较长,还有ajax的访问是不会被执行的,所以ajax动态生成的页面元素就不会有了
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报