字符串到UCS-2

I want to translate in Go my python program to convert an unicode string to a UCS-2 HEX string.

In python, it's quite simple:

u"Bien joué".encode('utf-16-be').encode('hex')
-> 004200690065006e0020006a006f007500e9

I am a beginner in Go and the simplest way I found is:

package main

import (
    "fmt"
    "strings"
)

func main() {
    str := "Bien joué" 
    fmt.Printf("str: %s
", str)

    ucs2HexArray := []rune(str)
    s := fmt.Sprintf("%U", ucs2HexArray)
    a := strings.Replace(s, "U+", "", -1)
    b := strings.Replace(a, "[", "", -1)
    c := strings.Replace(b, "]", "", -1)
    d := strings.Replace(c, " ", "", -1)
    fmt.Printf("->: %s", d)
}

str: Bien joué
->: 004200690065006E0020006A006F007500E9
Program exited.

I really think it's clearly not efficient. How can-I improve it?

Thank you

展开全部

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
douzhulan1815 2015-05-31 05:24
关注
Make this conversion a function then you can easily improve the conversion algorithm in the future. For example,

package main import ( "fmt" "strings" "unicode/utf16" ) func hexUTF16FromString(s string) string { hex := fmt.Sprintf("%04x", utf16.Encode([]rune(s))) return strings.Replace(hex[1:len(hex)-1], " ", "", -1) } func main() { str := "Bien joué" fmt.Println(str) hex := hexUTF16FromString(str) fmt.Println(hex) }

Output:

Bien joué 004200690065006e0020006a006f007500e9

NOTE:

You say "convert an unicode string to a UCS-2 string" but your Python example uses UTF-16:

u"Bien joué".encode('utf-16-be').encode('hex')

The Unicode Consortium

UTF-16 FAQ

Q: What is the difference between UCS-2 and UTF-16?

A: UCS-2 is obsolete terminology which refers to a Unicode implementation up to Unicode 1.1, before surrogate code points and UTF-16 were added to Version 2.0 of the standard. This term should now be avoided.

UCS-2 does not describe a data format distinct from UTF-16, because both use exactly the same 16-bit code unit representations. However, UCS-2 does not interpret surrogate code points, and thus cannot be used to conformantly represent supplementary characters.

Sometimes in the past an implementation has been labeled "UCS-2" to indicate that it does not support supplementary characters and doesn't interpret pairs of surrogate code points as characters. Such an implementation would not handle processing of character properties, code point boundaries, collation, etc. for supplementary characters.
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

编辑

预览

报告相同问题？

关注问题

GB13000 UCS-2格式转UTF-8
2017-10-17 09:08

身份证读卡器生成的基本信息TEXT文件，由于是采用 GB 13000 的 UCS-2 编码格式，java读取出来是乱码，这个段代码就是解决转码问题的，亲测可用
UCS-2转换为utf-8代码
2015-05-21 07:14

该函数首先将输入字符串转换为 UCS-2 字符数组，然后将 UCS-2 字符数组转换为 UTF-8 字符数组，最后将 UTF-8 字符数组转换为输出字符串。语言处理在 TStr2UTF8 函数中，还需要处理语言相关的问题，例如繁体、...
UCS-2、UCS-4
2021-06-25 08:28

明月几时有666的博客为了在屏幕上显示字符。需要下面几个步骤: 制作所有字符对应的字模。比如大写字母A长什么样。这个模样就是最终显示在屏幕上图形，即我们看到的字符A。为对所有的字符进行编码。比如大写字母A的编码为0x41.由于字符...
ATzhiling.rar_ucs-2_windows 8
2022-09-22 12:39

在Windows 8系统中，由于其广泛的国际支持，UCS-2编码被广泛应用在系统内部的字符串处理和文件存储中。Windows API（Application Programming Interface）提供了丰富的函数和接口，使得开发者可以方便地进行各种字符...
linux utf8 转 ucs-2,Linux string conversion from UTF-8 to UNICODE, UCS-4LE, UCS-4LE
2021-05-18 03:00

vvv666s的博客 Linux string conversion from UTF-8 to UNICODE, UCS-4LE, UCS-4LE.It is astonishing for windows developers that Linux has two distinct difference to Windows character set.1. standard char * is default ....
java ucs 2,【字符编码系列】JavaScript使用的编码-UCS-2
2021-04-22 01:55

王林楠的博客在JavaScrip中，进行一些GBK或者UTF-8编码的字符操作时，打印出来的经常是乱码，其原因就是因为JavaScript当然内置编码是UCS-2(UTF-16的子集)。所以弄懂JavaScript的内置编码还是很有必要的，否则对于一些字符操作，...
gbk,ucs-2转中文
2024-07-04 07:45

飘然渡沧海的博客【代码】gbk,ucs-2转中文。
c语言可以调用ucs2字符集,C++：字符串编码与字符串
2021-05-16 20:48

妩媚怡口莲的博客 1、编码在讲字符串之前首先说说编码方式。字符串在程序用用数据类型进行存储，同时数据类型存储的也可以是不同编码方式的字符串。总的来说，常用编码方式有以下几种：ASCII：最古老的编码方式，只使用后7位，可以...
JavaScript 的内部字符编码是 UCS-2 还是 UTF-16
2016-09-20 17:14

weixin_34216196的博客对于 JavaScript 使用的是 UCS-2 还是 UTF-16 这个问题，我找了很久，没有发现一个权威的回答，我决定自己研究一下它。这个回答来自于你对 JavaScript 引擎或者对 JavaScript 语言的理解。一、著名的 BMP（Basic ...
Ansi与Ucs2互转.rar
2020-04-03 16:19

反之，从UCS-2到Ansi也类似。易语言Ansi与UCS-2互转源码文件很可能包含了具体的实现细节，如函数定义、错误处理等，这些可以帮助开发者理解转换过程并应用到自己的项目中。学习和理解这段源码，可以增强对字符编码...
java gb13000 ucs2_采用GB 13000的UCS-2进行存储的文件怎么转换
2021-03-14 10:14

轻喘的博客假设文件头采用标准UCS2格式的两个字节，每个字段的数据是通过\t分隔的，每行文字是一条记录，如果有不同，需要对程序进行调整。FILE *f = _wfopen(L"d:\\文件名.txt",L"rb");if(f) // 打开文件成功{unsigned char ...
java ucs2转utf8_UCS-2和UTF-8的互相转换
2021-02-28 02:22

碧色将逝的博客 UCS-2是内码，而UTF-8则是它的实现方式。每一个字节都有8个位，而对于UTF-8来说，每一个字节的前两位尤为重要，按照前两位的不同，一共有四种排列组合：00xxxxxx，01xxxxxx，10xxxxxx，11xxxxxx。按照UTF-8标准，(1)...
字符编码之UCS-2与Utf-8
2017-08-18 07:57

imxiangzi的博客很多操作系统都直接支持utf-8字符串操作，只有MS这个异类用的Unicode，就是所谓的ucs-2 如果写关于跨平台的代码，那么避免不了要做编码转化这里贴一下今天写的把Unicode转化为Utf-8的代码 Ucs2BeToUcs2Le负责将...
ASCII、Unicode、UCS-2、UTF-8 等字符编码规则的区别与联系
2022-09-01 00:30

零号萌新的博客计算机对数据的读取是按照一个字节的大小来读取识别的，那么面对全世界这么多语言，计算机怎么知道是多个字节表示一个符号，而不是分别表示多个符号呢？...ASCII、Unicode、UCS-2、UCS-4、UTF-8、UTF-16、UTF-32......
字符串UCS-2格式转码（C#）
2010-12-02 07:12

fzhptr的博客用UCS-2即两个字节表示任何1个字符。个人信息数据包括CID、类型、版本、手机号码、姓名等。 private void btnSave_Click(object sender, EventArgs e) { CommonUtil.beginWaitCursor(0);...
编码方式部分信息整合：Unicode、UCS-2/4、UTF-8/16/32、GB2312、GBK
2020-05-07 15:44

watersevenmmfx的博客 ISO：国际标准化组织（International Organization for Standardization，ISO）简称ISO。负责目前绝大部分领域...UTF：（Unicode Transformation Format）通用转换格式或 Unicode字符集转换格式。属于Unicode Sta...
ASCII、GB2312、GBK、Unicode、UCS-2、UCS-4、UTF-8总结
2019-10-06 05:51

会魔法的女巫的博客一直以来常被编码带来的乱码问题所困惑，花了点时间粗略搞懂了这些编码之间的来龙去脉。...思想：8bit=1Byte表示1个字符，因此最多只能表示2^8=256个字符，一开始美国的计算机设计者只使用了126个字符，后来计算机...
Unicode, UTF-8, UTF-16, UTF-32, UCS-2, UCS-4
2021-01-31 06:18

xkdlzy的博客 Unicode UTF-8 UTF-16 UTF-32 UCS-2 UCS-4 VC++宽字符 UTF
java字符串转成utf-8_将字符串的编码格式转换为utf-8
2021-02-12 16:31

Duo小妖的博客方式一：/*** 将字符串的编码格式转换为utf-8** @param str* @return Name = new* String(Name.getBytes("ISO-8859-1"), "utf-8");*/public static String toUTF8(String str) {if (isEmpty(str)) {return "";}try {...
ASCII、Base64、Unicode（UCS-2、UTF-8、Little endian、Big endian）编码总结
2020-06-21 05:24

weixin_42291794的博客 ASCII 一个字符（byte）有8个二进制位（bit），每一位都是0或1，最多表示256个符号 ...把一串二进制转换成另一种二进制串把每三个8Bit的字节转换为四个6Bit（38=46=24），然后把6Bit再添两位高位0，组成四个
没有解决我的问题, 去提问

字符串到UCS-2

3条回答 默认 最新

3条回答默认最新