JuniorWizard
2015-04-23 02:54
采纳率: 50%
浏览 4.6k
已采纳

c语言文件读取汉字及汉字编码的问题

先贴程序
#define _CRT_SECURE_NO_WARNINGS

#include

using namespace std;
int main(void)
{
char ch;
FILE *f;
int i = 0;
int count = 0;
f = fopen("test.txt", "r+");
while ((ch = getc(f)) != EOF)

{

fseek(f, i, SEEK_SET);

putc(~ch, f);

i++;
fseek(f, i, SEEK_SET);

count++;
}
fclose(f);
printf("文件操作已经完成\n");
printf("共处理%d个字节\n", count);
printf("按任意键结束程序\n");
getchar();
return 0;
}

该程序实现的就是对文件内的字符进行取反,就是简单的加密,再取反一次就变回原样了,也就是解密
在对汉字进行操作的时候,我进行了一些字的实验,目前仅发现了一个王字,在取反后取反回去不能变成王字,我加了查看字符格式的代码,发现 王 这个字在进行第一次字符操作时候,被分解为三个字节!!!然后再操作,就变成了四个!进行一次加一次,但是其他的汉字目前没发现错误,不知道是怎么回事,难道王字的编码就是三个字节吗?
求大家解答一下,我是新人没有一个c币。。。如果以后我得到了,就追加给你,谢谢啦

  • 写回答
  • 好问题 提建议
  • 关注问题
  • 收藏
  • 邀请回答

3条回答 默认 最新

  • 知常曰明 2015-04-23 03:22
    已采纳
    • 简单来说,是汉字编码的问题。在Windows里,我们生成的txt文件最有可能是是GBK编码的。它的特点是每个汉字2个字节。没有例外。但是也有可能是Unicode用UTF-8来编码的,对于用Utf-8来编码的话,每个汉字就用3个字节来表示。另外,对文本文件文本,有可能会带上编码前缀,那样的话直接读取会多读到几个字节(其实就是前缀)
    • 以王字为例
    • 如果是GBK(或者GB2312),表示为CD F5
    • 如果以UTF-8,表示为E7 8E 8B
    • 如果是以Unicode表示,不带前缀为8B 73,带前缀为FF FE 8B 73
    已采纳该答案
    评论
    解决 无用
    打赏 举报
  • 707wk 2015-04-23 05:23

    可能是存储格式问题,记事本默认的编码为ANSI

    评论
    解决 2 无用
    打赏 举报
  • 立量 2015-04-23 03:15

    首先要看文件的编码格式,如果是GBK或者unicode编码,则汉字是2个字节存储,如果是UTF8,则是3个字节。

    评论
    解决 无用
    打赏 举报

相关推荐 更多相似问题