chaoren3166
2010-11-29 15:40 浏览 241
已采纳

请问用什么方法可以获取搜狐评论排行中的新闻列表

搜狐评论列表url: http://comment.news.sohu.com/djpm/
我想得到里头的热门新闻。
用了httpclient+htmlcleaner 还是不行
原因:请求到的html文件是一堆乱码,用了gbk(页面中设置的charset是gbk), utf-8, utf-16, ascii都还是不行。

请问各位大侠:有什么其它比较好的方法可以解决这个问题?或者除了httpclient外还有没有更好的请求网页的工具?
求解答,不甚感激!

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享
  • 邀请回答

3条回答 默认 最新

  • 已采纳
    Wang_Cheng_Bing Wang_Cheng_Bing 2010-12-01 10:16

    HttpClient httpClient=new HttpClient();
    GetMethod getMethod = null;
    BufferedReader br=null;
    BufferedWriter bw=null;
    getMethod=new GetMethod(url);
    getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,
    new DefaultHttpMethodRetryHandler());
    int statusCode = httpClient.executeMethod(getMethod);
    if (statusCode != HttpStatus.SC_OK) {
    System.err.println("Method failed: " + getMethod.getStatusLine());
    }
    br=new BufferedReader(new InputStreamReader(getMethod.getResponseBodyAsStream(),"UTF-8"));

    其余的代码自己补全。
    用这个试试吧。

    点赞 评论 复制链接分享
  • Wang_Cheng_Bing Wang_Cheng_Bing 2010-11-29 16:35

    看看网页源码是何物?
    网页源码能看见内容,那httpclient就能取下来。
    获取内容的规则:分析下内容就好了。

    点赞 评论 复制链接分享
  • Wang_Cheng_Bing Wang_Cheng_Bing 2010-11-30 14:44

    贴出代码看看。。!
    我这连不上搜狐.

    点赞 评论 复制链接分享

相关推荐