将CESU-8转换为高性能的UTF-8

I have some raw text that is usually a valid UTF-8 string. However, every now and then it turns out that the input is in fact a CESU-8 string, instead. It is possible to technically detect this and convert to UTF-8 but as this happens rarely, I would rather not spend lots of CPU time to do this.

Is there any fast method to detect if a string is encoded with CESU-8 or UTF-8? I guess I could always blindly convert "UTF-8" to UTF-16LE and then to UTF-8 using iconv() and I would probably get the correct result every time because CESU-8 is close enough to UTF-8 for this to work. Can you suggest anything faster? (I'm expecting the input string to be CESU-8 instead of valid UTF-8 around 0.01-0.1% of all string occurrences.)

(CESU-8 is a non-standard string format which contains 16-bit surrogate pairs encoded in UTF-8. Technically UTF-8 strings should contain the characters represented by those surrogate pairs, not the surrogate pairs itself.)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
doujia7094 2015-12-13 15:37
关注
Here's a more efficient version of your conversion function:

$regex = '@(\xED[\xA0-\xAF][\x80-\xBF]\xED[\xB0-\xBF][\x80-\xBF])@'; $s = preg_replace_callback($regex, function($m) { $in = unpack("C*", $m[0]); $in[2] += 1; // Effectively adds 0x10000 to the codepoint. return pack("C*", 0xF0 | (($in[2] & 0x1C) >> 2), 0x80 | (($in[2] & 0x03) << 4) | (($in[3] & 0x3C) >> 2), 0x80 | (($in[3] & 0x03) << 4) | ($in[5] & 0x0F), $in[6] ); }, $s);

The code only converts high surrogates followed by low surrogates, and converts the two three-byte CESU-8 sequences directly into a four-byte UTF-8 sequence, i.e. from

ED A0-AF 80-BF ED B0-BF 80-BF 11101101 1010aaaa 10bbbbbb 11101101 1011cccc 10dddddd

to

F0-F4 80-BF 80-BF 80-BF 11110oaa 10aabbbb 10bbcccc 10dddddd // o is "overflow" bit

Here's an online example.
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

将CESU-8转换为高性能的UTF-8 php
2015-12-08 08:26

回答 3 已采纳 Here's a more efficient version of your conversion function: $regex = '@(\xED[\xA0-\xAF][\x80-\xB
UTF-8可以处理任何语言吗？ php
2012-02-27 23:29

回答 1 已采纳 It will be able to handle any language covered by Unicode, but not ones such as tlhIngan Hol or Si
cesu8:用于在CESU-8和UTF-8之间转换的库
2021-04-11 01:48

用于在CESU-8和UTF-8之间转换的库。用法来自（BMP）的Unicode代码点，即U + 0000到U + FFFF范围内的代码点以与UTF-8相同的方式进行编码。如果cesu8::encode()或cesu8::decode()仅遇到同时是有效CESU-8和UTF-8...
blob转换为utf-8（sql语句）
2019-09-24 15:20

罗小轩的博客 <select id="upBasic" resultMap=... select CONVERT (product_basic USING utf8) AS product_basic from t_product_info WHERE product_id = #{productId} </select> <!-- 转换商品简介为中文 ...
mysql可以utf-8_MySQL支持UTF-8编码全攻略
2021-02-03 04:21

Meeiii阿梅的博客最近看到好多关于MySql支持utf-8编码的问题，刚好自己也要用，去找了一下，没有写的很全面的。整理了一下，供大家参考。在一下服务器设置测试通过服务器配置：window2000Tomcat 4.1,5.19Mysql 4.1, 5.0Java语言，JDK...
UNICODE与 UTF-8 的转换详解
2014-08-30 10:52

xianwen125的博客 UNICODE与 UTF-8的转换详解 1 编码在计算机中，各种信息都是以二进制编码的形式存在的，也就是说，不管是文字、图形、声音、动画，还是电影等各种信息，在计算机中都是以０和１组成的二进制代码表示...
UNICODE与UTF-8的转换详解
2014-12-18 10:37

xunzhaoxusanduo的博客 UNICODE与UTF-8的转换详解 1 编码在计算机中，各种信息都是以二进制编码的形式存在的，也就是说，不管是文字、图形、声音、动画，还是电影等各种信息，在计算机中都是以０和１组成的二进制代码表示...
Python对中文字符的处理(utf-8/ gbk/ unicode)
2016-06-29 15:02

chixujohnny的博客现在在做分词的时候会处理大量有关中文字符的处理，经常输出乱码，老大让我暂时不考虑字符编码，但是为了看着爽不得不研究一下。...# coding: utf-8 数据集我用的是“tc-corpus-train”这个是数据，百度一
LookupError: unknown encoding: utf-8
2021-05-30 05:36

Roc-xb的博客 python打包后运行exe报错：LookupError: unknown encoding: utf-8 pip uninstall enum34 命令卸载掉enum34 这个包，然后删掉之前打包生成的所有文件，重新进行打包就好了。
MySQL中字符编码UTF-8的一些问题
2019-05-06 15:55

Shawn_pbh的博客 MySQL的“utf8”实际上不是真正的UTF-8。 “utf8”只支持每个字符最多三个字节，而真正的UTF-8是每个字符最多四个字节。 MySQL一直没有修复这个bug，他们在2010年发布了一个叫作“utf8mb4”的字符集，绕过了这个...
UTF-8
2016-12-30 14:27

IT老兵驿站的博客摘自：https://zh.wikipedia.org/wiki/UTF-8，...UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，也是一种前缀码。它可以用来表示Unicode标准中的任何字符，且其编码中的第一个字
python之UTF-8解决方案
2014-05-22 21:48

qiwsir的博客答案1：使用Python3 直到目前，还更多使用python...# 及早将一切转到UTF-8 unicode_str = unicode('中文', encoding='utf-8') # 打印或者写入前用UTF-8编码 print unicode_str.encode('utf-8')
java判断utf8编码_Java检测文件是否UTF8编码
2021-02-13 00:17

labfay的博客 Charset utf8 = Charset.forName("UTF-8"); CharsetDecoder decoder = utf8.newDecoder(); CharBuffer cbuf = CharBuffer.allocate((int) (buf.limit() * decoder.averageCharsPerByte())); CoderResult result = ...
pycharm运行python项目报错unknown locale: UTF-8
2021-01-13 09:33

_鹿哥的博客最近用pycharm运行python项目的时候,报错提示unknown locale: UTF-8,网上看了很多解决办法都说在本地文件里面加编码配置项.但是解决不了猜测原因可能是pycharm没有读取到本地电脑环境的编码配置. 使用下下策启动...
【python】python打包后运行exe报错：LookupError: unknown encoding: utf-8
2020-08-31 12:19

Leslie-D的博客 chcp 65001 之类的都没用重装python解决问题
python读excel表格报错utf8_在python中使用encode（'utf8'从Excel读取字符串的缺点）
2021-02-04 14:09

张春又的博客 """ + str(sheettwo.cell(z,x).value.encode('utf-8')) + """ and done""" out.write(toprint) out.write("\n") 其中x和y在本例中是任意单元，其中x表示较少的任意性，并且包含utf-8字符到目前为止，我只在单元格...
UTF8常识
2023-02-20 16:05

孤独斗士的博客 utf8
unicode utf-8 gb18030 gb2312 gbk各种编码对比
2013-11-15 22:06

ucasliming的博客 CESU-8 、 SCSU 、 UTF-32 等，这些实现方式有些仅在一定的国家和地区使用，有些则属于未来的规划方式。目前通用的实现方式是 UTF-16小尾序（BOM）、UTF-16大尾序（BOM）和 UTF-8。在微软公司 Windows XP 操作...
oracle subset-superset pairs,Oracle 字符集
2021-05-08 07:18

bathroom火冒的博客 1 字符集超集当一种字符集(字符集A)的编码数值包含所有另一种字符集(字符集B...Oracle有子集-超级对照表(subset-superset pairs)，例如WE8ISO8859P1、ZHS16CGB231280、ZHS16GBK都是US7ASCII的超集。2 国家字符集(Na...
UTF-16编码详解
2019-03-18 16:05

沐恩_的博客首先我们来思考UTF-16的设计思路：我们知道Unicode的范围为0x0~0x10FFFF 首先是BMP区间，也就是0x0~0xFFFF这段区间，正好16位就可以表示，也兼容，两全其美那么超过BMP区间的怎么办呢？也就是0xFFFF~0x10FFFF这段...
没有解决我的问题, 去提问

悬赏问题

¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场部分对应不上
¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？

将CESU-8转换为高性能的UTF-8

3条回答 默认 最新

悬赏问题

3条回答默认最新