yanzhifeng0636 2013-07-03 09:39
浏览 651
已采纳

httpclient 请求过快,导致数据抓取不全

最近自己在写一爬虫,用到了httpclient4.2.X ,如果开启过多的线程去抓取数据,有时候会出现返回数据不完全的情况。请问大家有没有什么好的解决方案?

  • 写回答

6条回答 默认 最新

  • h248980496 2013-07-04 07:52
    关注

    请求超时
    httpclient.getParams().setParameter(CoreConnectionPNames.CONNECTION_TIMEOUT, 60000);
    读取超时
    httpclient.getParams().setParameter(CoreConnectionPNames.SO_TIMEOUT, 60000);

    根据你的情况,应该只需要设置读取超时就行了,另外,java端访问页面,部分子页面的站点可能本身延时就比较长,还有ajax的访问是不会被执行的,所以ajax动态生成的页面元素就不会有了

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(5条)

报告相同问题?

悬赏问题

  • ¥15 寻一个支付宝扫码远程授权登录的软件助手app
  • ¥15 解riccati方程组
  • ¥15 display:none;样式在嵌套结构中的已设置了display样式的元素上不起作用?
  • ¥30 用arduino开发esp32控制ps2手柄一直报错
  • ¥15 使用rabbitMQ 消息队列作为url源进行多线程爬取时,总有几个url没有处理的问题。
  • ¥15 求chat4.0解答一道线性规划题,用lingo编程运行,第一问要求写出数学模型和lingo语言编程模型,第二问第三问解答就行,我的ddl要到了谁来求了
  • ¥15 Ubuntu在安装序列比对软件STAR时出现报错如何解决
  • ¥50 树莓派安卓APK系统签名
  • ¥65 汇编语言除法溢出问题
  • ¥15 Visual Studio问题