MySQL，UTF-8和Emoji字符

I'm working on an iOS app with a PHP+MySQL backend. The app has a chat section, which needs to support emoji. My tables are utf8_unicode_ci. If I don't call 'set names utf8' in my scripts, emoji it actually works - whatever is entered in the database, is returned to the clients as it should.

The problem is that this (if I understand it correctly) stores special characters incorrectly in the database, and this breaks string comparing (ie ï is no longer the same as i when comparing strings).

However, if I do call set names utf8, suddenly the emoji characters are inserted as a bunch of questionmarks.

Any suggestions on the proper way of handling this? Thanks!

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dongye1143 2014-06-17 00:48
关注
The issue is wether the db has a diacritical insensitive compare. The other issue is composed characters, ï can be expressed as either one unicode character or two forming a surrogate pair. There are methods to convert a string to a pre-composed or decomposed form: precomposedStringWith* and decomposedStringWith*.

It seems that MySQL supports two forms of unicode ucs2 (that is an older form that was supersede by utf16) which is 16-bits per character and utf8 up to 3 bytes per character. The bad news is that neither form is going to support plane 1 characters which require at 17 bits. (mainly emoji). It looks like MySQL 5.5.3 and up also support utf8mb4, utf16, and utf32 support BMP and supplementary characters (read emoji). See MySQL Unicode Character Sets.

Here is some code and results to demonstrate the different unicode byte representations.
Unicode is a 21 bit encoding system.
UTF32 directly represents the code points and clearly demonstrates decomposed surrogate pairs.
UTF8 and UTF16 require one or more bytes to represent a unicode character.

NSLog(@"character: %@", @"Å"); NSLog(@"decomposedStringWithCanonicalMapping UTF8: %@", [[@"Å" decomposedStringWithCanonicalMapping] dataUsingEncoding:NSUTF8StringEncoding]); NSLog(@"decomposedStringWithCanonicalMapping UTF16: %@", [[@"Å" decomposedStringWithCanonicalMapping] dataUsingEncoding:NSUTF16BigEndianStringEncoding]); NSLog(@"decomposedStringWithCanonicalMapping UTF32: %@", [[@"Å" decomposedStringWithCanonicalMapping] dataUsingEncoding:NSUTF32BigEndianStringEncoding]); NSLog(@"precomposedStringWithCanonicalMapping UTF8: %@", [[@"Å" precomposedStringWithCanonicalMapping] dataUsingEncoding:NSUTF8StringEncoding]); NSLog(@"precomposedStringWithCanonicalMapping UTF16: %@", [[@"Å" precomposedStringWithCanonicalMapping] dataUsingEncoding:NSUTF16BigEndianStringEncoding]); NSLog(@"precomposedStringWithCanonicalMapping UTF32: %@", [[@"Å" precomposedStringWithCanonicalMapping] dataUsingEncoding:NSUTF32BigEndianStringEncoding]); NSLog(@"character: %@", @"
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

全面了解mysql中utf8和utf8mb4的区别
2020-09-10 01:27

早期的UTF-8编码格式理论上可以使用1到6个字节，但后来的规范限制在1到4字节，以涵盖所有Unicode平面。MySQL的UTF8仅支持3字节是因为其设计时的Unicode环境，而UTF8MB4的出现则是为了弥补这一不足。为保持向后兼容并...
mysql utf8mb4 emoji_mysql utf8mb4与emoji表情[转]
2021-01-27 19:05

大白兔奶棠的博客 MYSQL 5.5 之前， UTF8 编码只支持1-3个字节，只支持BMP这部分的unicode编码区， BMP是从哪到哪，到... 从MYSQL5.5开始，可支持4个字节UTF编码utf8mb4，一个字符最多能有4字节，所以能支持更多的字符集。u...
mysql utf8 表情符号_MySQLutf8mb4字符集：支持emoji表情符号
2021-03-13 23:41

韭菜后浪的博客支持 emoji 表情符号首页 → 数据库技术背景：阅读新闻MySQL utf8mb4 字符集：支持 emoji 表情符号[日期：2013-05-16]来源：Linux社区作者：Robbin[字体：]㈠序言为了应对无线互联网的机遇和挑战、避免 emoji 表情...
mysql设置字符集utf8mb4用于存储emoji表情
2018-12-15 10:18

草莓甜甜圈的博客答案在这里：utf8适用于不使用移动设备的互联网交互，utf8mb4适用于当前的移动设备互联网开发，因为移动设备中常常会有表情符号（emoji）的存储，它占用4个字节的存储空间，而utf8是3个字节，这样，用3个字节去存储4...
MySQL保存emoji表情
2014-05-07 15:20

在Java开发环境中，当数据库使用MySQL且编码设置为UTF-8时，尝试存储包含emoji表情的数据可能会遇到如下错误： ``` java.sql.SQLException: Incorrect string value: '\xF0\x9F\x98\x93' for column '...
MySQL utf8mb4字符集：支持emoji表情符号
2016-09-06 08:49

AlexLongjiu的博客 MySQL utf8mb4字符集：支持emoji表情符号㈠序言为了应对无线互联网的机遇和挑战、避免 emoji 表情符号带来的问题、涉及无线相关的 MySQL 数据库建议都提前采用 utf8mb4 字符集这必须要作为移动互联网行业的一...
mysql utf8 表情符号_MySQL utf8mb4 字符集：支持 emoji 表情符号
2021-02-01 19:22

苏利福的博客㈠序言为了应对无线互联网的机遇和挑战、避免 emoji 表情符号带来的问题、涉及无线相关的 MySQL 数据库建议都提前采用 utf8mb4 字符集这必须要作为移动互联网行业的一个技术选型的要点㈡限制需要 >= MySQL ...
mysql/Java服务端对emoji的支持与问题解决方法详解
2020-08-25 11:34

在Unicode标准中，emoji表情是4个字节的字符，而传统的utf8编码最多只能支持3个字节的字符，因此早期版本的MySQL（MySQL 5.5之前）无法正确存储emoji字符，当尝试存储时会抛出“Incorrect string value”异常。...
mysql emoji表情_mysql utf8mb4与emoji表情
2021-01-18 21:48

纯青火的博客 MYSQL 5.5 之前， UTF8 编码只支持1-3个字节，只支持BMP这部分的unicode编码区， BMP是从哪到哪，到... 从MYSQL5.5开始，可支持4个字节UTF编码utf8mb4，一个字符最多能有4字节，所以能支持更多的字符集。u...
mysql utf8 表情符号_MySQL utf8mb4 字符集：支持 emoji 表情符号-阿里云开发者社区
2021-01-19 10:00

二佳啊i的博客我用他的方法解决了问题,亲测可用,...㈠序言为了应对无线互联网的机遇和挑战、避免 emoji 表情符号带来的问题、涉及无线相关的 MySQL 数据库建议都提前采用 utf8mb4 字符集这必须要作为移动互联网行业的一个技术选...
mysql修改字符集utf8报错_MySQL utf8mb4 字符集：支持 emoji 表情符号
2021-02-08 02:18

weixin_39611174的博客㈠序言为了应对无线互联网的机遇和挑战、避免 emoji 表情符号带来的问题、涉及无线相关的 MySQL 数据库建议都提前采用 utf8mb4 字符集这必须要作为移动互联网行业的一个技术选型的要点㈡限制需要 >= MySQL ...
Mysql 字符集
2025-09-11 20:34

LeonAlexss的博客 MySQL 数据库字符集设置采用层级继承机制：推荐使用 utf8mb4 字符集和 utf8mb4_unicode_ci 排序规则，支持完整Unicode和emoji 字符集名称后缀含义： _ci：不区分大小写（推荐） _cs：区分大小写 _bin：二进制比较...
MySQL - utf8mb4字符集设置（解决emoji表情的记录无法保存问题）
2018-09-18 10:27

xinzi11243094的博客 1，emoji介绍（1）emoji 就是表情符号，来自日语词汇“絵文字”（假名为“えもじ”，读音即 emoji）。（2）最早由栗田穰崇（Shigetaka Kurita）创作，并在日本网络及手机用户中流行。自苹果公司发布的 iOS 5...
表情符号mysql utf8mb4_MySQL utf8mb4 字符集：支持 emoji 表情符号
2021-02-05 22:06

weixin_40005887的博客㈠序言为了应对无线互联网的机遇和挑战、避免 emoji 表情符号带来的问题、涉及无线相关的 MySQL 数据库建议都提前采用 utf8mb4 字符集这必须要作为移动互联网行业的一个技术选型的要点㈡限制需要 >= MySQL ...
java mysql emoji_mysql/Java服务端对emoji的支持与问题解决方法详解
2021-01-19 11:12

露月微凉的博客本文实例讲述了mysql Java服务端对emoji的支持与问题解决方法。分享给大家供大家参考，具体如下：问题描述将底层抓取的微博数据存入mysql，有些数据存入失败，查看Tomcat后，核心错误信息如下：// 抛出字符集不支持...
linux mysql emoji_MySQL utf8mb4 字符集：支持 emoji 表情符号
2021-02-06 23:51

幻世魔王的博客㈠序言为了应对无线互联网的机遇和挑战、避免 emoji 表情符号带来的问题、涉及无线相关的 MySQL 数据库建议都提前采用 utf8mb4 字符集这必须要作为移动互联网行业的一个技术选型的要点㈡限制需要 >= MySQL ...
utf8mb4 linux mysql_mysql设置字符集utf8mb4
2021-01-30 21:23

weixin_39876002的博客答案在这里：utf8适用于不使用移动设备的互联网交互，utf8mb4适用于当前的移动设备互联网开发，因为移动设备中常常会有表情符号(emoji)的存储，它占用4个字节的存储空间，而utf8是3个字节，这样，用3个字节去存储4个...
没有解决我的问题, 去提问

MySQL，UTF-8和Emoji字符

1条回答 默认 最新

1条回答默认最新