weixin_38911685 2022-05-31 04:29 采纳率: 50%

已结题

输出词向量词汇中总是夹杂着编码怎么解决

输出词向量词汇中总是夹杂着编码

问题相关代码，请勿粘贴截图

from re import A
import warnings
import gensim
from matplotlib.pyplot import get

if name == 'main':
warnings.filterwarnings(action='ignore', category=UserWarning,module='gensim')
model = gensim.models.Word2Vec.load("douluo.model")

word = 'ᠤᠳᠠᠲᠠᠯ\u180eᠠ'
result = model.wv.similar_by_word(word)
print('输入词为： '+word)

if word in model.wv.key_to_index != True:
    print('输入的词: ( '+word+' ) 可以在词表中找到')
else:
    print('这个词在词嵌入表中无法找到')


print("跟 "+word+" 最相近的词：")
print(type(result))
for i in result:
    print(i)

运行结果及报错内容

跟 ᠤᠳᠠᠲᠠᠯ᠎ᠠ 最相近的词：
<class 'list'>
('ᠴᠢᠳᠠᠲᠠᠯ\u180eᠠ', 0.8069231510162354)
('ᠠᠲᠠᠯ\u180eᠠ', 0.75520259141922)
('ᠳᠤᠨᠳᠠᠷᠠᠲᠠᠯ\u180eᠠ', 0.7440893650054932)
('ᠲᠣᠩᠭᠣᠷᠠᠲᠠᠯ\u180eᠠ', 0.6954106092453003)
('ᠵᠢᠮ᠃', 0.6887457966804504)
('ᠰᠤᠩᠭᠠᠲᠠᠯ\u180eᠠ', 0.6865381002426147)
('ᠭᠠᠷᠭᠠᠲᠠᠯ\u180eᠠ', 0.6848090887069702)
('ᠰᠤᠨᠲᠠᠯ\u180eᠠ', 0.6813605427742004)
('ᠠᠩᠭᠢᠵᠢᠷᠠᠲᠠᠯ\u180eᠠ', 0.6628503799438477)
('ᠬᠤᠷᠢᠶᠠᠲᠠᠯ\u180eᠠ', 0.659303605556488)

我的解答思路和尝试过的方法

我发现
word = 'ᠤᠳᠠᠲᠠᠯ\u180eᠠ'
print('输入词为： '+word)
得到输出是：
输入词为： ᠤᠳᠠᠲᠠᠯ᠎ᠠ
把带有编码的词输入再输出一下就可以得到没有编码的词，我写到文件夹再读进来发现依旧是带编码的

我想要达到的结果

怎么可以直接输出不带编码的

展开全部

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
小康2022 Python领域新星创作者 2022-05-31 05:30
关注
【有帮助请采纳】

看它的编码方式是哪一种，然后可以用encode函数与decode函数进行字符串的编码与解码
例如：

s = '123' a = s.encode('utf-8') print(a)# 输出字符串s按utf-8编码后的结果 b = a.decode('utf') print(b)# 输出a按utf-8解码后的结果

【有帮助请采纳】
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
1人已打赏
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容
weixin_38911685 2022-05-31 06:36

word = 'ᠤᠳᠠᠲᠠᠯ\u180eᠠ' result = model.wv.similar_by_word(word) print('输入词为： '+word) if word in model.wv.key_to_index != True: print('输入的词: ( '+word+' ) 可以在词表中找到') else: print('这个词在词嵌入表中无法找到') print("跟 "+word+" 最相近的词：") print(type(result)) i=str(result) print (i.encode('utf-8'). decode('utf-8') ) #输出依旧是[('ᠴᠢᠳᠠᠲᠠᠯ\u180eᠠ', 0.8069231510162354), ('ᠠᠲᠠᠯ\u180eᠠ', 0.75520259141922), ('ᠳᠤᠨᠳᠠᠷᠠᠲᠠᠯ\u180eᠠ', 0.7440893650054932), ('ᠲᠣᠩᠭᠣᠷᠠᠲᠠᠯ\u180eᠠ', 0.6954106092453003), ('ᠵᠢᠮ᠃', 0.6887457966804504), ('ᠰᠤᠩᠭᠠᠲᠠᠯ\u180eᠠ', 0.6865381002426147), ('ᠭᠠᠷᠭᠠᠲᠠᠯ\u180eᠠ', 0.6848090887069702), ('ᠰᠤᠨᠲᠠᠯ\u180eᠠ', 0.6813605427742004), ('ᠠᠩᠭᠢᠵᠢᠷᠠᠲᠠᠯ\u180eᠠ', 0.6628503799438477), ('ᠬᠤᠷᠢᠶᠠᠲᠠᠯ\u180eᠠ', 0.659303605556488)]

赞

回复

编辑

预览

轻敲空格完成输入
显示为

卡片

标题

链接

回复

按下Enter换行，Ctrl+Enter发表内容
小康2022 回复 weixin_38911685 2022-05-31 06:46

是不想要输出字符串中的\u180e吗？如果是，可以直接对字符串切片就行了

赞

回复

编辑

预览

轻敲空格完成输入
显示为

卡片

标题

链接

回复

按下Enter换行，Ctrl+Enter发表内容
小康2022 回复 weixin_38911685 2022-05-31 06:53

先encode再decode不是等于没有改变原值吗？

赞

回复

编辑

预览

轻敲空格完成输入
显示为

卡片

标题

链接

回复

按下Enter换行，Ctrl+Enter发表内容
展开全部21条评论

查看更多回答(1条)

编辑

预览

报告相同问题？

关注问题

python支持向量机为什么输出结果会变来变去？ python 人工智能有问必答机器学习
2021-06-05 17:55

回答 2 已采纳你可以设置一下random state这个参数，划分数据集的时候也可以设置一下，这样每次得到的结果就是一样的了，有用的话麻烦给个采纳，谢谢
神经网络输出多维向量的值都一样是什么问题呀 python 机器学习神经网络
2023-02-19 03:33

回答 2 已采纳检查输入数据是否正确：确保您的输入数据已经被正确地预处理和标准化，使其能够适应网络的要求。还要确保您的输入数据与您的问题域相匹配。检查网络结构：确认您的神经网络结构是否正确并满足您的问题要求。特别是
Vgg16模型分析图片输出的向量维度可以改变吗？机器学习深度学习自然语言处理
2023-03-17 18:20

回答 5 已采纳参考GPT和自己的思路： Vgg16模型是一个预训练的深度卷积神经网络，它由若干个卷积层和池化层构成。在输入一张图片后，模型会输出一个特征向量，该向量的维度通常为1000，用来表示该图片的分类信息。这
人工智能-基础篇08篇-BERT模型介绍及原理，架构，优缺点分析
2023-10-12 10:16

Freedom3568的博客具体来说，在生成中文文本过程中，解码器会对当前中文单词根据上下文信息来预测下一个中文单词，之后再根据下一个词预测下一个词的下一个词，循环往复，直至生成完整句子，这种做法也体现了序列模型的特性。...
神经网络输出的多维向量的值总感觉怪怪的 python 机器学习神经网络
2023-02-20 09:11

回答 2 已采纳你是用什么数据训练你的模型？看输出结果都是 0.5，似乎模型根本就没有训练。
获取单一语种词向量wiki.en.vec python 有问必答
2021-08-13 10:00

回答 1 已采纳你可以从这里下载该词向量文件： Page not found · GitHub Pages https://fasttext.cc/docs/en/pre
利用GoogleNews-vectors-negative300提取词语的词向量 python 有问必答深度学习自然语言处理
2021-07-08 09:16

回答 2 已采纳用字符串分割-，望采纳，谢谢
AI大模型基础：1.分词
2024-09-10 12:02

AI大模型-大飞的博客分词是自然语言处理的基础，分词准确度直接决定了后面的词性标注、句法分析、词向量以及文本分析的质量。
python文本中出现的词汇关联性分析 python
2022-09-27 08:51

回答 1 已采纳可以参考： https://www.jianshu.com/p/c4f
李航《统计学习》中有概念弄不明白人工智能支持向量机机器学习
2021-07-09 07:46

回答 1 已采纳 1、点表示任意变量；2、沿着约束方向未经剪辑是未考虑不等式约束时
为什么会报“被积函数必须返回长度与输入向量的长度相同的输出向量”这个错误 matlab
2022-05-13 12:02

回答 1 已采纳换一下就行了 Fx1 = @(x) x.^0; [I, S] = quad(Fx1, 0, 2)
人工智能中神经网络与自然语言处理共生关系_CodingPark编程公园
2020-04-13 00:04

TEAM-AG的博客文章目录神经网络知识大串联 1:第一代的神经元模型 3 2：从M-P模型到感知器模型 3 3:前馈神经网络 3 4:后向传播与BP算法神经网络 4 5:深度神经网络DNN 4 ...2:Word-embeding 词嵌入 11 3:Word2V...
广告行业中那些趣事系列32：美团搜索NER技术实践学习笔记
2021-04-04 16:42

数据拾光者的博客导读：本文是“数据拾光者”专栏的第三十二篇文章，这个系列将介绍在广告行业中自然语言处理和推荐系统实践。本篇主要是学习美团技术团队分享的《美团搜索中NER技术的探索与实践》学习笔记，对于想了...
Stable Diffusion学习指南【模型篇】
2025-01-02 02:38

AI极客菌的博客（注：文末扫码获取AI工具安装包和AI学习资料）模型作为机器学习后的结晶，可以说是对绘图画面影响最大的因素之一，一款好的模型即使不写提示词，出的图都会比绞尽脑汁编写咒语出的图更精美。但当我们兴致勃勃的下载...
美团搜索中NER技术的探索与实践
2020-07-23 12:00

美团技术团队的博客二是实体词典匹配无法解决歧义问题，比如“黄鹤楼美食”，“黄鹤楼”在实体词典中同时是武汉的景点、北京的商家、香烟产品，词典匹配不具备消歧能力，这三种类型都会输出，而模型预测则可结合上下文，不会输出...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月31日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月31日

输出词向量词汇中总是夹杂着编码 怎么解决