如何去掉字符串中的非UTF-8编码？

使用Struts2接收iPhone客户端发来的请求，刚刚接收到的时候是做了URL Encode的，比如这个字符串：“%E8%BF%99%E6%98%AF%E4%B8%80%E6%AE%B5%E6%B5%8B%E8%AF%95%00%E7%94%A8%E7%9A%84%E6%96%87%E5%AD%97”。

但是这个字符串中包含了一个非UTF-8编码“%00”，目前所知产生的原因是使用了iPhone原生的文本框，在用户从其他App或者网页粘贴内容后提交的时候会带有一些额外的字符。为了兼容iOS5之后的emoji表情，目前采用的方法是数据库直接保存URL Encode之后的编码，在显示的时候进行Decode并输出，根本原因在于MySQL的编码使用的是GBK。

对于上述字符串，由于包含了非UTF-8编码的字符串，因此如果返回的结果是XML形式的时候客户端（比如iphone App）会出现XML解析失败导致整个页面空白的情况。请教在不改变现有程序实现的情况下（即不更换数据库编码、仍然保存URL Encode之后的字符串），能否通过其他手段过滤掉这些非法字符呢？比如通过正则表达式？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
clxy大叔 2012-08-08 16:43
关注
结果
[code="java"]测{方块}试[/code]
只有%00是方块，对头的吧？

我的建议也是你自己说的用正则表达式把非法字符过滤掉。

看你的描述似乎不确定非法字符有哪些，那么就把所有非正常字符过滤掉。

比如正常字符包括：

数字，英文大小写，表达符号。

中文。

用正则把不是以上的字符都干掉的方向，具体区间可以参考这篇[url]http://www.reai.us/chinese-in-utf8-and-gbk[/url]

但是，我仍然建议改DB编码吧，一了百了。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Java 所有字符串转UTF-8 万能工具类-GetEncode.java
2020-04-04 23:54

不需要关心接受的字符串编码是UTF_8还是GBK，还是ios-8859-1，自动转换为utf-8编码格式，无需判断字符串原有编码，用法：//处理编码String newStr = GetEncode.transcode(oldStr);
Java中将常用编码字符串转换为UTF-8编码
2025-07-05 18:25

资源下载链接为： https://pan.quark.cn/s/d9ef5828b597 在Java中，可以实现字符串编码的查询以及转换操作，尤其是能够把一些常见的编码格式转换为UTF-8编码格式。
将字符串从常用编码转为utf-8编码(java)
2018-03-07 16:52

Java字符串编码查询及转换，可将常用的一些编码格式转换成utf-8
JS实现对中文字符串进行utf-8的Base64编码的方法(使其与Java编码相同)
2020-10-22 01:59

总结来说，JS实现与Java相同编码效果的中文字符串UTF-8 Base64编码，关键在于理解字符编码和Base64编码原理，以及在JavaScript中处理非ASCII字符的特殊性。通过将UTF-16编码的中文字符串转换为UTF-8，然后应用Base64...
java 字符utf8编码,Java字符串编码（UTF-8）
2021-02-12 15:04

南明小王爷的博客 I have come across this line of legacy code, which I am trying to figure out:String newString = new String(oldString.getBytes("UTF-8"), "UTF-8"));As far as I can understand, it is encoding & decod...
java字符串转成utf-8_将字符串的编码格式转换为utf-8
2021-02-13 00:31

Duo小妖的博客方式一：/*** 将字符串的编码格式转换为utf-8** @param str* @return Name = new* String(Name.getBytes("ISO-8859-1"), "utf-8");*/public static String toUTF8(String str) {if (isEmpty(str)) {return "";}try {...
Java 对字符串进行 utf-8 编码
2022-06-05 15:26

Hemist的博客 Java 对字符串进行 utf-8 编码
Java字符串转UTF-8字节数组的详细步骤解析
2025-08-06 00:55

纸寿司的博客 Unicode字符集是一种国际标准，旨在为每一个字符提供一个唯一的数字，无论是在任何语言、计算机、应用程序或文化中。本章我们将介绍Unicode的基本概念，包括它是如何发展的，以及它的核心原理。在深入探讨字节与码点...
java去除utf8编码中的非法字符串,检查字符串是否是有效的用Java编码的UTF-8
2021-02-16 16:23

weixin_39625864的博客 How can I check if a string is in valid UTF-8 format?解决方案Only byte data can be checked. If you constructed a String then its already in UTF-16 internally.Also only byte arrays can be UTF-8 encoded...
为什么Java默认使用UTF-16，Golang默认使用UTF-8呢？
2024-06-21 20:06

Mint6的博客为什么Java默认使用UTF-16，Golang默认使用UTF-8呢？Java 和 Go 在处理字符编码方面的选择，反映了它们各自的历史背景和设计哲学。Java 的 UTF-16 选择了稳定和兼容，而 Go 的 UTF-8 则倾向于现代互联网应用的灵活性...
没有解决我的问题, 去提问

如何去掉字符串中的非UTF-8编码？

2条回答 默认 最新

2条回答默认最新