获得网页编码格式时charset取不到

html网页的内容大致如下：
[code]
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

CSDN首页
...

.....

[/code]
我使用以下语句抓取类似上面的网页：
[code]
URL url = new URL("http://www.csdn.net");
HttpURLConnection connection = (HttpURLConnection)url.openConnection();
//建立连接后，使用下面两句取得网页的编码格式
String contentType = connection.getHeaderField("Content-Type");
contentType = connection.getContentType();
[/code]

无论是哪一句，得到的contentType的值都是text/html，而不包含后面的charset=gb2312，这是为什么？

我注意到一个问题，content="text/html; charset=gb2312"这里，在;和charset之间有一个空格，是否因为这个空格的缘故，而不能得到content-type的准确值
还有没有其他的办法可以得到页面的编码字符集？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
david2003mn 2008-09-02 10:16
关注
可以用 HttpClient jar包
GetMethod method = new GetMethod(url);

String charset = null; if(StringUtils.isEmpty(encoding)){ charset = method.getRequestCharSet(); if("ISO-8859-1".equalsIgnoreCase(charset)) //未指定编码时返回ISO-8859-1, 改为默认的GB2312 charset = "GB2312";

}
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

JAVA获取文件编码格式
2022-03-24 16:00

标题提到的“JAVA获取文件编码格式”是一项常见的任务，特别是在处理来自不同来源的文本文件时。在这种情况下，我们可以利用第三方开源库来帮助我们完成这项工作。描述中提到了一个叫做"cpdetector"的工具，这是一个...
浏览器自定义网页编码格式(使用charset插件)
2025-03-08 12:51

小原啦的博客最近在上Java web课程的时候，有需要自己自定义当前网页用什么编码...但是当前的基于Chrome内核（Chromium）的浏览器大多数都不支持自定义网页编码，因此我们需要一个插件来进行修改。在这里我们使用的是charset插件。
java获取网页编码_java判断网页的编码格式
2021-02-12 18:31

weixin_39635459的博客故需对网页内容编码格式做判断，方式大体分为三种：一、从header标签中获取Content-Type=#Charset；二、从meta标签中获取Content-Type=#Charset；三、根据页面内容分析编码格式。其中一/二方式并不能准确指示该页面...
解析php获取字符串的编码格式的方法(函数)
2020-10-27 05:35

需要注意的是，`iconv()`在处理某些编码转换时可能会出现不完整或者错误的结果，尤其是在处理BOM（Byte Order Mark）或者不完全的编码字符串时。在这种情况下，可以考虑使用`iconv()`的替代品，如`mb_convert_...
java获取html编码格式_如何获取java源文件编码格式
2021-02-13 02:21

tomorrow-77的博客展开全部java中主要使用charset这个类来判断文件的编码格32313133353236313431303231363533e58685e5aeb931333337623432式，代码如下：packagecom.ghj.packageoftool;importinfo.monitorenter.cpdetector.io....
Java字符编码及获取文件编码
2023-02-02 00:21

通过阅读和理解这段代码，你可以学习到如何在Java中处理不同编码的文件，以及如何在不确定编码的情况下进行探测和转换。总之，理解字符编码以及如何在Java中处理它们是每个开发者的必备技能。无论是处理本地化文本...
php设置编码格式的方法
2020-10-27 15:13

例如，在转换UTF-8编码的数据到GB2312编码时，如果源数据中包含"—"（破折号）这样的字符，iconv函数会出错。这是因为GB2312编码中并没有这个字符的映射，因此iconv无法正确转换它。为了解决这个问题，可以在iconv...
Charset(Chrome网页编码转换工具)
2018-07-20 17:44

找了半天，也确定了半天，终于发现，新版本的谷歌，（好像55之后的版本），都和我一样，找不到编码格式了。但是，万能的百度，还是让我找到了方法，就是下载使用chrome插件（扩展应用）——Charset。
python获取网页编码格式
2019-10-07 12:38

你也太秀了8的博客爬虫获取网页内容要准确获取网页的编码格式，有utf-8，gbk，gb2312等等。今天在爬新闻网站时候，发现同一个网页会分不同的编码，但是获取HTML节点相关是根据第一个编码格式来的，拿人民网新闻页源码举例。当我...
java文件名的编码格式_java 怎么获得文件编码格式
2021-02-26 18:33

revive_chain的博客展开全部java课程设计例子Java如何获取文件编码格式e68a84e8a2ad62616964757a686964616f313333353138331：简单判断是UTF-8或不是UTF-8，因为一般除了UTF-8之外就是GBK，所以就设置默认为GBK。按照给定的字符集存储...
网页中的字符集编码与乱码(2)--文档内的 meta charset 编码声明
2023-06-20 08:00

果冻的猿宇宙的博客深入介绍了文档内编码声明的应用, 包括许多在静态文档和动态文档中的实验与测试的细节, 以及其它的一些注意事项等.
请求json 文件数据拿不到（文件编码问题）
2019-10-10 10:21

Z苗的博客问题：今天遇到一个问题，后台把一个...通过查看文件的编码格式发现不是UTF-8格式而是latin1 所以iOS 苹果请求不到。查看文件的编码方式解决方案： window 电脑生成的josn 文件，看一下里面的汉字是不是UTF-8 文件...
vbs或asp采集文章时网页编码问题
2020-10-30 09:14

当涉及到友情链接检测时，由于链接到你的页面的第三方网站可能使用了各种不同的网页编码，这就需要采集脚本具备自动识别网页编码的能力，以便正确获取和解析内容。早期的做法可能包括按照一定的顺序尝试不同的编码，...
java 获取视频编码_Java如何获取文件编码格式
2021-02-12 22:39

哦啦咯第一的博客按照给定的字符集存储文件时，在文件的最开头的三个字节中就有可能存储着编码信息，所以，基本的原理就是只要读出文件前三个字节，判定这些字节的值，就可以得知其编码的格式。其实，...
Java批量转换文件编码格式的实现方法及实例代码
2020-08-26 02:07

在软件开发中，编码格式的转换是一个常见的问题，特别是在项目迁移或升级时，需要将编码格式从GBK转换到UTF-8，以适应新的项目需求。然而，手动转换文件编码格式是一件很繁琐的事情，需要一步步地处理每个文件，容易...
myeclipse（设置JSP页面编码格式）【图解很详细的】
2017-03-11 16:54

在开发Web应用时，正确设置JSP页面的编码格式至关重要，因为这直接影响到网页内容的显示，特别是处理中文字符时。MyEclipse作为一款强大的Java EE集成开发环境，提供了便捷的方式来配置JSP页面的编码。以下将详细...
网页中的字符集编码与乱码(3)--content-type charset 方式
2023-06-21 08:29

果冻的猿宇宙的博客深入介绍了响应头 Response Headers 中的 Content-Type 中的 charset 信息的应用, 包括许多在静态文档和动态文档中的实验与测试的细节, 以及一些具体配置和与文档内编码声明的优先级问题.
获取文件编码 java_Java如何获取文件编码格式
2021-02-12 13:47

袁大岛的博客按照给定的字符集存储文件时，在文件的最开头的三个字节中就有可能存储着编码信息，所以，基本的原理就是只要读出文件前三个字节，判定这些字节的值，就可以得知其编码的格式。其实，如果项目运行的平台就是中文操作...
ASP生成静态文件编码为UTF-8格式的HTML文件
2020-10-30 15:32

然而，默认情况下，ASP使用FileSystemObject（FSO）组件创建的文件通常采用GB2312编码，这对于需要UTF-8编码的国际化的网页是不适用的。UTF-8是一种广泛使用的字符编码，能够支持多种语言，包括中文。在ASP中，...
没有解决我的问题, 去提问

获得网页编码格式时charset取不到

3条回答 默认 最新

3条回答默认最新