2 wch1989211 wch1989211 于 2016.04.07 17:49 提问

python利用jieba分词出现乱码问题,求指教

用一段新闻作分词,先用正则表达式去除标点符号re.sub(r,'',pos_news[0]),其中pos_news[0]是一段新闻。
print 之后是去除标点的一段新闻。
print " ".join(jieba.cut(re.sub(r,'',pos_news[0])))打出来乱码:
涵 閬 涓 婁簡 杩 欎 唤 鐙 壒 鐨 勭 ょ 墿 濞 绀 句 氬 悇 鐣 鍟 璧 蜂 簡 搴 鐑 堢 殑 鍙

但是如果直接print " ".join(jieba.cut(pos_news[0])) 是正常的分词后的新闻
“ 我 经常 和 孩子 们 说 , 要 记住 每 一个 帮助 过 我们 的 人 , 日后 有 能力 了 要 记得 报答 人家 ! ” 走访 结束 后 , 赵继 ( 化名 ) 母亲 的话 依然 在 e 租宝 志愿者 的 耳畔 回绕 。

不知道为什么我去除标点后分词就是乱码。。。NLP小白求指教!

3个回答

oyljerry
oyljerry   Ds   Rxr 2016.04.07 19:09

先要看看你的编码是什么,你需要对应的解码,decode等。

CSDNXIAOD
CSDNXIAOD   2016.04.09 12:58

python乱码问题
----------------------biu~biu~biu~~~在下问答机器人小D,这是我依靠自己的聪明才智给出的答案,如果不正确,你来咬我啊!

sinat_21939717
sinat_21939717   2017.10.19 16:51

with open('19th.txt', 'r', encoding='utf-8', errors='ignore') as f:
data = f.read()
用这个来解码encoding='utf-8'

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
python 基于jieba模块进行中文分词词频统计
jieba官方文档:github# encoding=utf-8 import jieba import jieba.analyse txt = open('Chinese.txt',"r") seg_txt=[] for line in txt: #第一行是关键词提取。 #第二行是分词提取 #第三行是关键词提取(与第一行算法有差异) seg_list = jieba
【自然语言处理入门】01:利用jieba对数据集进行分词,并统计词频
使用jieba对垃圾短信数据集进行分词,然后统计其中的单词出现的个数,找到出现频次最高的top100个词。
Python调用jieba分词中的中文编码问题
使用python调用jieba进行中文分词: https://github.com/fxsjy/jieba 根据官方指导完成安装,copy demo,出现问题: # encoding=utf-8 import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all=True) print("Full Mode: " + "/ ".join(se
python结巴分词以及词频统计实例
# coding=utf-8'''Created on 2018年3月19日@author: chenkai结巴分词支持三种分词模式:精确模式:     试图将句子最精确地切开,适合文本分析;全模式:       把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式: 在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。'''import jieb...
使用Python+jieba和java+庖丁分词在Spark集群上进行中文分词统计
本篇博客也是在做豆瓣电影数据的分析过程中,需要对影评信息和剧情摘要信息进行分析而写的一篇博客 以前学习hadoop时,感觉做中文分词也没那么麻烦,但是到了Spark,却碰到了诸多困难,但幸好最终都解决了这些问题,而得到了正确的结果,这里我们不解释具体的spark语法之类的,着重于解决中文分词统计这个问题 同步github地址:点击查看
【python 走进NLP】 NLP 使用jieba分词处理文本
一、NLP介绍概念 Natural Language Processing/Understanding,自然语言处理/理解日常对话、办公写作、上网浏览希望机器能像人一样去理解,以人类自然语言为载体的文本所包含的信息,并完成一些特定任务内容 中文分词、词性标注、命名实体识别、关系抽取、关键词提取、信息抽取、依存分析、词嵌入……应用 篇章理解、文本摘要、情感分析、知识图谱、文本翻译、问答系统、聊天机器
【python】jieba词性标注 并列join
----------------------------------------------------------------的-就-要求-我们-对于-一般-历史-的-叙述-,-比-通常-哲学史-家所-做-的-为-多- 。-我-还-发觉-这-一点-对于-一般-读者-未必-是-很-熟悉-的-那-几段-时期-,-尤其-必要-。-经院哲学-的-大-时代-乃是-十一-世纪-改革-的-产物-,-而-这些-...
Python jieba 中文分词与词频统计
#! python3 # -*- coding: utf-8 -*- import os, codecs import jieba from collections import Counter def get_words(txt): seg_list = jieba.cut(txt) c = Counter() for x in seg_list: if
Python中文分词_使用介绍(wordcloud+jieba)
词云又叫文字云,是对文本数据中出现频率较高的“关键词”在视觉上的突出呈现,形成关键词的渲染形成类似云一样的彩色图片,从而一眼就可以领略文本数据的主要表达意思。安装需要的libs接下来的代码里会用到这三个主要的libs,我本地是64位win10,安装过程如下。
jieba中文分词源码分析(一)
一、缘由接触自然语言处理(NLP)有段时间,理论知识有些了解,挺想动手写些东西,想想开源界关于NLP的东西肯定不少,其中分词是NLP的基础,遂在网上找了些资源,其中结巴分词是国内程序员用python开发的一个中文分词模块, 源码已托管在github: 源码地址 ,代码用python实现,源码中也有注释,但一些细节并没有相应文档,因此这里打算对源码进行分析,一来把知识分享,让更多的童鞋更快的对源码有个