wch1989211 2016-04-07 09:49 采纳率: 0%
浏览 5244

python利用jieba分词出现乱码问题,求指教

用一段新闻作分词,先用正则表达式去除标点符号re.sub(r,'',pos_news[0]),其中pos_news[0]是一段新闻。
print 之后是去除标点的一段新闻。
print " ".join(jieba.cut(re.sub(r,'',pos_news[0])))打出来乱码:
涵 閬 涓 婁簡 杩 欎 唤 鐙 壒 鐨 勭 ょ 墿 濞 绀 句 氬 悇 鐣 鍟 璧 蜂 簡 搴 鐑 堢 殑 鍙

但是如果直接print " ".join(jieba.cut(pos_news[0])) 是正常的分词后的新闻
“ 我 经常 和 孩子 们 说 , 要 记住 每 一个 帮助 过 我们 的 人 , 日后 有 能力 了 要 记得 报答 人家 ! ” 走访 结束 后 , 赵继 ( 化名 ) 母亲 的话 依然 在 e 租宝 志愿者 的 耳畔 回绕 。

不知道为什么我去除标点后分词就是乱码。。。NLP小白求指教!

  • 写回答

2条回答 默认 最新

  • oyljerry 2016-04-07 11:09
    关注

    先要看看你的编码是什么,你需要对应的解码,decode等。

    评论

报告相同问题?

悬赏问题

  • ¥15 关于#python#的问题:求帮写python代码
  • ¥20 MATLAB画图图形出现上下震荡的线条
  • ¥15 LiBeAs的带隙等于0.997eV,计算阴离子的N和P
  • ¥15 关于#windows#的问题:怎么用WIN 11系统的电脑 克隆WIN NT3.51-4.0系统的硬盘
  • ¥15 来真人,不要ai!matlab有关常微分方程的问题求解决,
  • ¥15 perl MISA分析p3_in脚本出错
  • ¥15 k8s部署jupyterlab,jupyterlab保存不了文件
  • ¥15 ubuntu虚拟机打包apk错误
  • ¥199 rust编程架构设计的方案 有偿
  • ¥15 回答4f系统的像差计算