关于多字节和unicode字符节的区别

在网上看到一段代码

void CdemoDlg::OnBnClickedButton1()
{
    // TODO: 在此添加控件通知处理程序代码

    CString strinput;

    GetDlgItemText(IDC_EDIT1, strinput);


    int nlen = strinput.GetLength();


    int ncount = 0;
    for (int i = 0; i < nlen; i++)
    {
        if ((BYTE)strinput[i] > 0x7f)
        {
            ++i;
        }
        ncount++;
    }


    CString stroutput;
    stroutput.Format(_T("字符串长度:%d,字符个数:%d"),nlen, ncount);

    SetDlgItemText(IDC_STATIC_OUTPUT,stroutput);

}

其中for循环是为了在使用多字节的时候,正确识别两个汉字算一个字符,在多字节中,一个汉字算两个字符,for循环是判断两个字符中是否有大于127?请详细讲解一下,为什么这么判断

4个回答

unicode和双字节最大的区别在于,双字节的情况下,相同的编码,代表2个英文还是一个汉字,或者一个日文,或者一个台湾中文,或者什么,这个是无法确定的。
而unicode是唯一的编码。
如果你去看ascii码表,你会发现,0~127是基本区,128~255是扩展区,扩展区包含了很多特殊符号和屏幕显示用的框线、色块等。不知道你是否用过turbo c 2.0这种软件,它界面上的菜单的那些框线,就是用扩展区的字符表示的。
一般情况下,为了让中文和英文混合显示,我们的做法是,中文汉字的区码用>127的字符开头,这样<127是英文,>127是中文,相安无事。
但是遇到西文软件,就乱套了。你尝试在windows的窗口里面打开turbo c,并且启用中文支持,就会发现好好的界面上出现了很多乱码,就是这个原因。
caozhy
回答这么多问题就耍赖把我的积分一笔勾销了 回复moon19961996: 你没有理解本质,本质是,对于gb2312编码来说,>127是中文(必需放弃扩展ascii,因为重叠了),而unicode正如它的名字,uni的含义是唯一,无论什么文字,编码都是统一的。不会出现一个编码即是中文,又是英文这种情况
大约一年之前 回复
weixin_44826062
moon19961996 额,我是否可以这样理解,多字节编码中的英文小于127,而汉字会大于127,unicode则没这个区别
大约一年之前 回复

经过实际测试,stri strinput.GetLength();这个已经能自动识别出汉字和字符的个数了,不需要再做另外的判断,不知道你的for循环是干嘛用的,莫名其妙。而且实际算出来的ncount是不准的。

char 单个字符具体占用多少个字节根据编码格式确定
ISO-8859-1 1个字节
unicode 2 个字节
UTF-8 英文1个字节,中文三个字节
GB2312/GBK 英文1个字节,中文两个字节
其次,汉字的assic编码在127之后的,无论哪种编码127编码只能只能存放英文和字符,如果用c++实现,那么这里需要判断根据编码格式来中文跳1个长度还是跳2个长度,用java就不用造这么多轮子了

GetLength() 函数不论是款字节还是窄字节,都按一个单位算。
比如

H你好

长度就是三。
而窄字节的ASCII是再0~127之间的值,而款字节就是大于127的值。
先处理第一个 H
他的值在127以内,所以不是款字节。
第二个处理的不是 你的一半,而是 “你”这整个字,他的值肯定超过127,第三个字同理。

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问
相关内容推荐