superstar100 2010-12-21 14:12
浏览 280
已采纳

关于UTF-8的一点疑问

[code="java"]String str = "爱我中华";

Charset cset = Charset.forName("UTF-8");

ByteBuffer bb = cset.encode(str);

byte[] bytes = bb.array();

System.out.println(bytes.length);[/code]
[size=large]
为什么上面的代码最后输出的结果显示bytes数组的长度为19.按照UTF-8的转换定义,每个汉字应该被转换成三个字节呀,纠结中,求解答[/size]

  • 写回答

1条回答 默认 最新

  • dyccsxg 2010-12-21 16:25
    关注
    1. UTF-8使用1至6个字节为每个字符编码 [url]http://baike.baidu.com/view/25412.htm[/url] 不过这里的每个汉字的确是使用3个字节编码的: 爱:-25,-120,-79 我:-26,-120,-111 中:-28,-72,-83 华:-27,-115,-114
    2. bb.array() 返回的是缓冲区的底层实现数组,并不仅仅是编码后的字节,末尾有多个0;
    3. 获取编码后字节数组的正确方式 int length = bb.limit(); byte[] bytes = new byte[length]; bb.get(bytes);
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥60 版本过低apk如何修改可以兼容新的安卓系统
  • ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
  • ¥50 有数据,怎么建立模型求影响全要素生产率的因素
  • ¥50 有数据,怎么用matlab求全要素生产率
  • ¥15 TI的insta-spin例程
  • ¥15 完成下列问题完成下列问题
  • ¥15 C#算法问题, 不知道怎么处理这个数据的转换
  • ¥15 YoloV5 第三方库的版本对照问题
  • ¥15 请完成下列相关问题!
  • ¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像,如何解决?