weixin_38911685 2022-05-31 12:29 采纳率: 50%
浏览 57
已结题

输出词向量词汇中总是夹杂着编码 怎么解决

输出词向量词汇中总是夹杂着编码

img

问题相关代码,请勿粘贴截图

from re import A
import warnings
import gensim
from matplotlib.pyplot import get

if name == 'main':
warnings.filterwarnings(action='ignore', category=UserWarning,module='gensim')
model = gensim.models.Word2Vec.load("douluo.model")

word = 'ᠤᠳᠠᠲᠠᠯ\u180eᠠ'
result = model.wv.similar_by_word(word)
print('输入词为: '+word)

if word in model.wv.key_to_index != True:
    print('输入的词: ( '+word+' ) 可以在词表中找到')
else:
    print('这个词在词嵌入表中无法找到')


print("跟 "+word+" 最相近的词:")
print(type(result))
for i in result:
    print(i)
运行结果及报错内容

跟 ᠤᠳᠠᠲᠠᠯ᠎ᠠ 最相近的词:
<class 'list'>
('ᠴᠢᠳᠠᠲᠠᠯ\u180eᠠ', 0.8069231510162354)
('ᠠᠲᠠᠯ\u180eᠠ', 0.75520259141922)
('ᠳᠤᠨᠳᠠᠷᠠᠲᠠᠯ\u180eᠠ', 0.7440893650054932)
('ᠲᠣᠩᠭᠣᠷᠠᠲᠠᠯ\u180eᠠ', 0.6954106092453003)
('ᠵᠢᠮ᠃', 0.6887457966804504)
('ᠰᠤᠩᠭᠠᠲᠠᠯ\u180eᠠ', 0.6865381002426147)
('ᠭᠠᠷᠭᠠᠲᠠᠯ\u180eᠠ', 0.6848090887069702)
('ᠰᠤᠨᠲᠠᠯ\u180eᠠ', 0.6813605427742004)
('ᠠᠩᠭᠢᠵᠢᠷᠠᠲᠠᠯ\u180eᠠ', 0.6628503799438477)
('ᠬᠤᠷᠢᠶᠠᠲᠠᠯ\u180eᠠ', 0.659303605556488)

我的解答思路和尝试过的方法

我发现
word = 'ᠤᠳᠠᠲᠠᠯ\u180eᠠ'
print('输入词为: '+word)
得到输出是:
输入词为: ᠤᠳᠠᠲᠠᠯ᠎ᠠ
把带有编码的词输入再输出一下就可以得到没有编码的词,我写到文件夹再读进来发现依旧是带编码的

我想要达到的结果

怎么可以直接输出不带编码的

  • 写回答

2条回答 默认 最新

  • 小康2022 Python领域新星创作者 2022-05-31 13:30
    关注

    【有帮助请采纳】

    看它的编码方式是哪一种,然后可以用encode函数与decode函数进行字符串的编码与解码
    例如:

    s = '123'
    a = s.encode('utf-8')
    print(a)# 输出字符串s按utf-8编码后的结果
    b = a.decode('utf')
    print(b)# 输出a按utf-8解码后的结果
    

    【有帮助请采纳】

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
    1人已打赏
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 6月8日
  • 已采纳回答 5月31日
  • 创建了问题 5月31日

悬赏问题

  • ¥15 对于相关问题的求解与代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
  • ¥15 保护模式-系统加载-段寄存器
  • ¥15 电脑桌面设定一个区域禁止鼠标操作
  • ¥15 求NPF226060磁芯的详细资料
  • ¥15 使用R语言marginaleffects包进行边际效应图绘制
  • ¥20 usb设备兼容性问题
  • ¥15 错误(10048): “调用exui内部功能”库命令的参数“参数4”不能接受空数据。怎么解决啊
  • ¥15 安装svn网络有问题怎么办