Metro2033 2015-01-28 02:20 采纳率: 60%
浏览 2081
已采纳

Java HTTP Client 抓取网页,这个网页无论用什么编码都是乱码?

http://www.licai.com/xuetang/CiDian.aspx?dj=1&type=&page=1

       client.executeMethod(get);
            //
            String statusText = get.getStatusText();
            //System.out.println("Test.main():--->" + statusText);
            System.out.println("Test.main():--->" + new String(get.getResponseBodyAsString().getBytes("GB2312"), "UTF-8"));

            InputStream in = get.getResponseBodyAsStream();
            BufferedReader br = new BufferedReader(new InputStreamReader(in, charset));
            String tempbf;
            html = new StringBuffer(100);
            while ((tempbf = br.readLine()) != null) {

                html.append(tempbf + "\n");

            }

代码 大概就是这样的

  • 写回答

2条回答 默认 最新

  • 微wx笑 Java领域优质创作者 2015-02-04 10:16
    关注
            // 默认的client类。
            HttpClient client = new DefaultHttpClient();
            // 设置为get取连接的方式.
            HttpGet get = new HttpGet(url);
            // 得到返回的response.
            HttpResponse response = client.execute(get);
            // 得到返回的client里面的实体对象信息.
            HttpEntity entity = response.getEntity();
            if (entity != null) {
                System.out.println( entity.getContentEncoding());
                System.out.println( entity.getContentType());
                // 得到返回的主体内容.
                InputStream instream = entity.getContent();
                BufferedReader reader = new BufferedReader(new InputStreamReader(instream, encoding));
                System.out.println(reader.readLine());
                // EntityUtils 处理HttpEntity的工具类
                // System.out.println(EntityUtils.toString(entity));
            }
    
            // 关闭连接.
            client.getConnectionManager().shutdown();
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 求解O-S方程的特征值问题给出边界层布拉休斯平行流的中性曲线
  • ¥15 谁有desed数据集呀
  • ¥20 手写数字识别运行c仿真时,程序报错错误代码sim211-100
  • ¥15 关于#hadoop#的问题
  • ¥15 (标签-Python|关键词-socket)
  • ¥15 keil里为什么main.c定义的函数在it.c调用不了
  • ¥50 切换TabTip键盘的输入法
  • ¥15 可否在不同线程中调用封装数据库操作的类
  • ¥15 微带串馈天线阵列每个阵元宽度计算
  • ¥15 keil的map文件中Image component sizes各项意思