2 wch1989211 wch1989211 于 2016.04.07 17:49 提问

python利用jieba分词出现乱码问题,求指教

用一段新闻作分词,先用正则表达式去除标点符号re.sub(r,'',pos_news[0]),其中pos_news[0]是一段新闻。
print 之后是去除标点的一段新闻。
print " ".join(jieba.cut(re.sub(r,'',pos_news[0])))打出来乱码:
涵 閬 涓 婁簡 杩 欎 唤 鐙 壒 鐨 勭 ょ 墿 濞 绀 句 氬 悇 鐣 鍟 璧 蜂 簡 搴 鐑 堢 殑 鍙

但是如果直接print " ".join(jieba.cut(pos_news[0])) 是正常的分词后的新闻
“ 我 经常 和 孩子 们 说 , 要 记住 每 一个 帮助 过 我们 的 人 , 日后 有 能力 了 要 记得 报答 人家 ! ” 走访 结束 后 , 赵继 ( 化名 ) 母亲 的话 依然 在 e 租宝 志愿者 的 耳畔 回绕 。

不知道为什么我去除标点后分词就是乱码。。。NLP小白求指教!

3个回答

oyljerry
oyljerry   Ds   Rxr 2016.04.07 19:09

先要看看你的编码是什么,你需要对应的解码,decode等。

CSDNXIAOD
CSDNXIAOD   2016.04.09 12:58

python乱码问题
----------------------biu~biu~biu~~~在下问答机器人小D,这是我依靠自己的聪明才智给出的答案,如果不正确,你来咬我啊!

sinat_21939717
sinat_21939717   2017.10.19 16:51

with open('19th.txt', 'r', encoding='utf-8', errors='ignore') as f:
data = f.read()
用这个来解码encoding='utf-8'

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!