我写了一个爬虫,爬到了网页里面的一个加密数字,是'\uxxxx'这种形式的,我需要把'\u'后面的xxxx提取出来。
但是我尝试了好多种办法,分割不了,替换不了,遍历也不行。
我写了一个爬虫,爬到了网页里面的一个加密数字,是'\uxxxx'这种形式的,我需要把'\u'后面的xxxx提取出来。
但是我尝试了好多种办法,分割不了,替换不了,遍历也不行。
假设对象s是这样一个unicode对象,可以尝试如下代码:
parsed_code = []
for x in s:
parsed_code.append(hex(ord(x))[2:])
思路就是先获取unicode字符串的unicode值,再转为十六进制,然后剔除0x标志以提取需要的信息。