關於htmlparser和httpclinet爬蟲問題

我用這兩個做了個簡單的基於google搜索引擎的搜索網頁，可是會出現突然java（也就是爬蟲程序）不能從頁面取得結果的情况，不知道是爲什麽，平時使用的時候都很正常。測試下，就是從網頁解析不到結果。
不知道有沒有人遇到過這個情况。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
爱上一条鱼 2011-11-17 20:35
关注
可能有些网页编码太差，你的java解析不了
爬虫应该对这类情况进行处理一下，以免出现一些问题，比如网页里没有外链，或者死循环吧，比如httpclient获取不到html页面也有可能，比如别GFW屏蔽了会导致exception。。。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(5条)

报告相同问题？

关注问题

java 网络爬虫 httpclient_基于Java HttpClient和Htmlparser实现网络爬虫代码
2021-02-26 12:32

yyyy52的博客开发环境的搭建，在工程的 Build Path 中导入下载的Commons-httpClient3.1.Jar，htmllexer.jar 以及 htmlparser.jar 文件。图 1. 开发环境搭建HttpClient 基本类库使用HttpClinet 提供了几个类来支持 HTTP 访问。...
html parser java_使用 HttpClient 和 HtmlParser 实现简易爬虫
2021-02-12 20:34

YJ林的博客使用 HttpClient 和 HtmlParser 实现简易爬虫这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用，在此基础上实现了一个简易的网络爬虫 (Crawler)，来说明如何使用 HtmlParser 根据需要处理 Internet 上的...
使用 HttpClient 和 HtmlParser 实现简易爬虫
2015-06-02 15:22

柳家河的博客开源包的使用，在此基础上实现了一个简易的网络爬虫 (Crawler)，来说明如何使用 HtmlParser 根据需要处理 Internet 上的网页，以及如何使用 HttpClient 来简化 Get 和 Post 请求操作，构建强大的网络应用程序。...
使用HttpClient和HtmlParser实现简易爬虫
2014-06-27 09:19

wilsonke的博客这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用，在此基础上实现了一个简易的网络爬虫 (Crawler)，来说明如何使用 HtmlParser 根据需要处理 Internet 上的网页，以及如何使用 HttpClient 来简化 Get ...
HttpClient 和 HtmlParser 实现简易爬虫
2014-07-23 09:58

java_wliang的博客 HtmlParser 提供了如此简便灵巧的类库，可以从网页中便捷的提取出指向其他网页的超链接。笔者结合这两个开源包，构建了一个简易的网络爬虫。爬虫 (Crawler) 原理学过数据结构的读者都知道有向图这种数据结构。如...
使用 HttpClient 和 HtmlParser 实现简易爬虫_Linux ！
2019-09-23 21:06

defkaug153461的博客使用 HttpClient 和 HtmlParser 实现简易爬虫_Linux ！　这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用，在此基础上实现了一个...
使用HttpClient和HtmlParser实现网络爬虫
2012-12-18 14:49

mango_song的博客这篇文章介绍了 HtmlParser 开源包和 HttpClient 开源包的使用，在此基础上实现了一个简易的网络爬虫(Crawler)，来说明如何使用 HtmlParser 根据需要处理 Internet 上的网页，以及如何使用 HttpClient来简化 Get 和 ...
没有解决我的问题, 去提问

關於htmlparser和httpclinet爬蟲問題

6条回答 默认 最新

6条回答默认最新