xiaozhu1991 2012-12-22 22:39
浏览 218
已采纳

关于乱码

我看一篇文章说:“中”在utf-8对应的码表是98,然后用gb2312解析就会出现乱码。 “解析”这个词我能理解,可能就是根据数据的字节对应的数值得到字符,那么从字符到字节的过程又是怎样的呢,譬如“中”对应98,“中”这个字符在计算机里面不也是由字节组成的吗,不管用什么码表解析它,它不都是一堆字节码,怎么计算机查不同的码表能得到不同的字节呢?

  • 写回答

2条回答 默认 最新

  • game4daniel 2012-12-22 23:54
    关注

    字符集:字符与数字的一种映射关系。在不同的字符编码中,同一个字对应的数字一般是不同的。
    我决不认为中在UTF8中对应的数字是98,以下仅是比喻。
    比如说,中在utf8中对应98,而在gbk则可能对应的是123。这就定义此编码的人是从何角度来对字符进行数字表示的,比如GBK就是按拼音来的。

    这就是乱码出来的基本问题,98这个数字用UTF8解析是“中”,而在GBK则可能是其它字符。

    再说说字符转字节的问题,同样的中对应98,这里牵涉到编码实现的问题。
    98这个数字,在计算机中是怎么表示的?你能回答出来吗?不能!!为什么,我一个字节能代表98!两个字节也能,4个,8个,大小端,甚至我用一篇长长加密来都能代表98,这就是编码方式。大家约定俗成的一套编码、解码方式。所以UNICODE会有N多的编码方式:UTF-8,UTF16(还分大小端等),UCS2(JAVA的char用的就是这个)等

    建议你上维基百科,看看这方面的资料,上面说的相当地详细

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

悬赏问题

  • ¥15 java 操作 elasticsearch 8.1 实现 索引的重建
  • ¥15 数据可视化Python
  • ¥15 要给毕业设计添加扫码登录的功能!!有偿
  • ¥15 kafka 分区副本增加会导致消息丢失或者不可用吗?
  • ¥15 微信公众号自制会员卡没有收款渠道啊
  • ¥15 stable diffusion
  • ¥100 Jenkins自动化部署—悬赏100元
  • ¥15 关于#python#的问题:求帮写python代码
  • ¥20 MATLAB画图图形出现上下震荡的线条
  • ¥15 关于#windows#的问题:怎么用WIN 11系统的电脑 克隆WIN NT3.51-4.0系统的硬盘