ryuutizen
2011-11-17 20:13
浏览 164
已采纳

關於htmlparser和httpclinet爬蟲問題

我用這兩個做了個簡單的基於google搜索引擎的搜索網頁,可是會出現突然java(也就是爬蟲程序)不能從頁面取得結果的情况,不知道是爲什麽,平時使用的時候都很正常。測試下,就是從網頁解析不到結果。
不知道有沒有人遇到過這個情况。

  • 写回答
  • 关注问题
  • 收藏
  • 邀请回答

6条回答 默认 最新

  • 爱上一条鱼 2011-11-17 20:35
    已采纳

    可能有些网页编码太差,你的java解析不了
    爬虫应该对这类情况进行处理一下,以免出现一些问题,比如网页里没有外链,或者死循环吧,比如httpclient获取不到html页面也有可能,比如别GFW屏蔽了 会导致exception。。。

    打赏 评论
  • lzj0470 2011-11-17 22:11

    这个非常正常。我之前都有对Google采集过,采集了一段时间,会出现验证码。这个是一年前的事情了。现在直接屏蔽你,也是正常的。你可以换一下网络,或者重新一下路由器,重点是更换IP。不过,这也不是解决问题的办法。

    打赏 评论
  • lzj0470 2011-11-18 10:08

    Google比较人性化,它也不想永远失去一个用户的机会吧。如果是封IP段,那么,他失去的不是一个用户,可能是很多用户了。

    打赏 评论
  • 爱上一条鱼 2011-11-18 10:31

    不能解析又正常可能就是楼上说的,连续访问之后出现验证码之类的。。。。

    打赏 评论
  • 爱上一条鱼 2011-11-18 10:32

    也有可能是你对它服务器连续访问,它的服务器性能比较烂 不稳定, 现在我用google搜索也是这样,有时有用有时无法访问 不稳定

    打赏 评论
  • 「已注销」 2011-11-18 12:40

    要不是抓取的太猛,应该不会封你ip的

    你可以尝试用代理,自己搞个代理库,里面的代理地址可以到网上爬些下来
    :D

    打赏 评论

相关推荐 更多相似问题