day2862
2020-05-21 10:35
采纳率: 100%
浏览 1.2k
已采纳

java用UTF-8编码读取GBK编码的文本文件,将读取内容用GBK编码写文件,生成的文本文件为什么还是乱码?

1、如题。读写的时候操作的是字节,文本内容对应的16进制编码应该不会变,结果为何还是乱码。

2、在nodepad中先用ansi编码编写中文,然后转成UTF-8后乱码,但转回ansi又能正常显示。这和java先用错误编码读取,在用正确编码写文件的差别在哪呢。

有点迷惑,希望大神解答,谢谢!

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 邀请回答

2条回答 默认 最新

  • 关竹 2020-05-21 12:32
    已采纳

    因为你在java里对文件内容,在乱码的基础上进行了再编码,这个时候输出的结果已经不是原文件的内容了。
    你可以输出一下前后的二进制码比对以下看看。
    而在nodepad里,是对同样的二进制进行不同的组合来满足不同的编码需求,最底层的二进制码没有变,只是读的方式变了。

    编码可以看作是一种加密方式,原先的文件已经经过了一次gbk加密,你用utf-8去解密,得到了乱码,再对乱码进行gbk加密,得到的自然不是原来的结果。如果要回到原来的内容,只要进行utf-8解码就好了。

    点赞 评论
  • blownewbee 2020-05-21 11:10

    UTF-8和GBK是不同的编码,必须对应才行。GBK向下兼容ansi(利用了ansi >0x7f以上的表码)

    点赞 评论

相关推荐 更多相似问题