关于UTF-8的一点疑问

[code="java"]String str = "爱我中华";

Charset cset = Charset.forName("UTF-8");

ByteBuffer bb = cset.encode(str);

byte[] bytes = bb.array();

System.out.println(bytes.length);[/code]
[size=large]
为什么上面的代码最后输出的结果显示bytes数组的长度为19.按照UTF-8的转换定义，每个汉字应该被转换成三个字节呀，纠结中，求解答[/size]

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dyccsxg 2010-12-21 16:25
关注
UTF-8使用1至6个字节为每个字符编码 [url]http://baike.baidu.com/view/25412.htm[/url] 不过这里的每个汉字的确是使用3个字节编码的：爱：-25,-120,-79 我：-26,-120,-111 中：-28,-72,-83 华：-27,-115,-114

bb.array() 返回的是缓冲区的底层实现数组，并不仅仅是编码后的字节，末尾有多个0；

获取编码后字节数组的正确方式 int length = bb.limit(); byte[] bytes = new byte[length]; bb.get(bytes);
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

UNICODE,GBK,UTF-8区别
2015-05-09 16:09

Lnho的博客简单来说，unicode，gbk和大五码就是编码的值，而utf-8,uft-16之类就是这个值的表现形式．而前面那三种编码是一兼容的，同一个汉字，那三个码值是完全不一样的．如＂汉＂的uncode值与gbk就是不一样的，假设uncode为a...
网络传输中的那些编码之-UTF8编码漫谈
2023-06-14 10:29

村中少年的博客介绍下字符集和编码的区别，介绍UTF-8的原理，介绍存储和显示背后的原理
unicode，ansi，utf-8，unicode big endian编码区别 --篇2
2017-07-30 19:26

lsfreeing的博客这是一篇程序员写给程序员的趣味...使用Windows记事本的“另存为”，可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件，Windows是怎样识别编码方式的呢？我很早前就发现Unico
UTF-8 GBK GB2312 之间的区别和关系
2019-04-22 17:34

Robben.Han的博客 UTF-8：Unicode TransformationFormat-8bit，允许含BOM，但通常不含BOM。是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24为（三个字节）来编码。UTF-8包含全世界所有国家需要用到...
unicode，gbk和UTF-8
2017-11-30 13:51

RyanDYJ的博客简单来说，unicode，gbk和大五码就是编码的值，而utf-8,uft-16之类就是这个值的表现形式．而前面那三种编码是一兼容的，同一个汉字，那三个码值是完全不一样的．如＂汉＂的uncode值与gbk就是不一样的，假设uncode为a...
python：数据类型、编码方式（base64、utf--8）、python中的进制、\u,\x,0x区别力荐力荐力荐
2022-09-03 14:06

一只菜得不行的鸟的博客 python：数据类型、编码方式（base64、utf--8）、python中的进制、\u,\x,0x区别？数据类型与编码方式？为什么会有不同数据类型？python基础数据类型有哪些？...（干货）何时用utf-8编码何时用base-64编码？
UTF-8 GBK GB2312的区别和联系
2015-03-27 09:17

shanzhizi的博客 UTF-8：Unicode TransformationFormat-8bit，允许含BOM，但通常不含BOM。是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24为（三个字节）来编码。UTF-8包含全世界所有国家需要用到...
UTF-8 GBK UTF16 GB2312 之间的区别和关系
2015-12-22 09:39

SilentFisher的博客 UTF-8：Unicode TransformationFormat-8bit，允许含BOM，但通常不含BOM。是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24为（三个字节）来编码。UTF-8包含全世界所有国家需要用到...
UTF-8,GB2312等编码格式详解
2017-06-15 17:31

霜月枫桥的博客编码一直是让新手头疼的问题，特别是 GBK、GB2312、UTF-8 这三个比较常见的网页编码的区别，更是让许多新手晕头转向，怎么解释也解释不清楚。但是编码又是那么重要，特别在网页这一块。如果你打出来的不是乱码，而...
【计算机组成原理】深入浅出UTF-8：从诞生、实现到“乱码”问题全解析
2025-10-02 23:16

小李独爱秋的博客 UTF-8：数字世界的语言桥梁 UTF-8是一种革命性的文本编码标准，诞生于1992年Ken Thompson和Rob Pike在餐厅餐巾纸上的灵感。它完美解决了全球文字编码的混乱问题，具有以下核心特性：完全兼容ASCII编码支持所有...
ANSI,UTF-8,Unicode,ASCII编码的区别
2015-07-16 12:41

X龙叔的博客 UTF-8：UTF意为通用字集转换格式(Universal Character Set Transformation Format)，UTF-8是Unicode的8位元格式。如果使用只能在同类位元组内支持8个位元的重要资料一类的旧式传输媒体，可选择UTF-8格式。 ...
unicode、utf-8、gb2312字符集，字符编码，全在这里
2020-02-17 18:30

逆着风走的博客 “文章采用的是utf-8编码方式”，个人觉得准确的说法是“文章采用的是基于unicode编码字符集的utf-8的编码方案”，即即unicode本身作为编码字符集没有任何存储形式，只是一个编号和字符对应的表而已，如何在...
没有解决我的问题, 去提问

关于UTF-8的一点疑问

1条回答 默认 最新

1条回答默认最新