使用jieba切词时出现格式问题

 from gensim.models import word2vec
import gensim
import logging
import jieba,re,codecs
##结巴分词——添加新字典
jieba.load_userdict("E:/workplace/data/userdict.txt")
test=open("E:/workplace/data/test.txt",'r',encoding='Utf-8')
words=list(jieba.cut(test,cut_all=False,HMM=True))
#输入文本 是否为全模式分词 与是否开启HMM进行中文分词
words= ''.join(words)#将列表转化为字符串

报错：

   warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")
Traceback (most recent call last):

  File "<ipython-input-17-a64173a4fbe2>", line 1, in <module>
    runfile('E:/workplace/code/untitled0.py', wdir='E:/workplace/code')

  File "D:\Program Files (x86)\anaconda\lib\site-packages\spyder\utils\site\sitecustomize.py", line 866, in runfile
    execfile(filename, namespace)

  File "D:\Program Files (x86)\anaconda\lib\site-packages\spyder\utils\site\sitecustomize.py", line 102, in execfile
    exec(compile(f.read(), filename, 'exec'), namespace)

  File "E:/workplace/code/untitled0.py", line 15, in <module>
    words=list(jieba.cut(test,cut_all=False,HMM=True))

  File "D:\Program Files (x86)\anaconda\lib\site-packages\jieba\__init__.py", line 282, in cut
    sentence = strdecode(sentence)

  File "D:\Program Files (x86)\anaconda\lib\site-packages\jieba\_compat.py", line 37, in strdecode
    sentence = sentence.decode('utf-8')

AttributeError: '_io.TextIOWrapper' object has no attribute 'decode'

test.txt和userdict.txt均使用utf-8编码。
test.txt内容如下：

图片说明

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2018-09-11 15:28
关注
http://www.mamicode.com/info-detail-316548.html

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

安装jieba库时出现了黄色乱码 python
2022-04-25 11:00

回答 1 已采纳换个源试试,输入 pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple
请问使用jieba分词如何避免把我的时间词分开？ nlp python 自然语言处理
2022-04-29 20:27

回答 1 已采纳能不能用正则表达式先将这些筛出来，然后将其在语料中的删除，新的语料使用jieba分词，最后将两组词拼接
python中jieba库遇到的问题 python vscode 有问必答
2022-01-20 15:42

回答 2 已采纳看出来了，你不要用和库名一样的文件名把程序名改为 myjieba.py
分词工具使用系列——jieba使用
2022-11-06 17:00

不被定义的号的博客第一章 sentencepiece使用第二章 Jieba工具使用。
jieba库安装之后无法使用 python
2021-03-21 19:26

回答 1 已采纳 jupyter的环境和你安装的环境不一样。要把jupyter的环境切换到你安装的环境。至于怎么切换,请参考https://blog.csdn.net/songyuc/article/details/9
nodejieba安装的问题 node.js vscode
2021-09-21 22:46

回答 1 已采纳完整错误看一下，今天刚给别人解决了，npm安装报错，看下是不是一样的错
python使用pycharm中的jieba库应用未成功 python
2019-06-10 21:46

回答 1 已采纳安装了库你得导入啊很显然，jieba这个变量你没有导入啊 ```python import jieba jieba.load_userdict("async.txt")
jieba自定义分词规则与多进程切词
2021-08-23 10:27

呆萌的代Ma的博客当存在某些自定义的专业名称或长词时，jieba有可能会当成多个词，但其实是一个词，自定义的方法如下：原始的jieba效果： import jieba if __name__ == '__main__': sentence = "学习python与人工智能有益身体健康...
安装jieba库出现黄色警告怎么办，import jieba不能用 python
2021-11-03 15:02

回答 1 已采纳就是因为你py文件名字也叫jieba导致的这个会被python当作模块的与已有的jieba模块会冲突啊
Python的jieba库输出全部分词哪里出了问题 python
2022-06-02 11:36

回答 1 已采纳代码没错，只是你输出的内容错了可以参考 jieba.cut与jieba.lcut的区别_blackieliu的博客-CSDN博客_jieba.cut
jieba词频统计中去除停用词的问题 python
2023-03-08 00:32

回答 5 已采纳参考gpt和自己的思路，在代码中，你已经成功读取并生成了停用词列表stop_list，可以在统计词频时添加一个判断，如果单词出现在停用词列表中，则不加入词频统计。下面是修改后的代码： import
使用jieba对新闻标题进行切词，然后使用word2vec训练词向量及相似词计算的一个小例子
2022-01-22 17:38

Icy Hunter的博客这个主要是我想记下来方便以后用的时候好直接copy ...然后是数据2022-1-21-21.csv文件如下（例子里就使用了新闻标题）：时间,新闻标题,URL,新闻内容 (01月21日 00:03),30万股民沸腾！5家中企获准免费仿制新冠口服药，
jupyter nootbook中jieba分词出现NameError python
2021-08-17 11:41

回答 1 已采纳你是不是少import了一个库
#NLP|jieba分词词性对照
2024-01-30 17:13

向日葵花籽儿的博客 jieba词性对照表。
使用jieba测试分词并且增加自定义字典
2022-08-10 14:20

GIS从业者的博客使用jieba测试分词并且增加自定义字典
没有解决我的问题, 去提问

悬赏问题

¥15 Matlab问题解答有两个问题
¥50 Oracle Kubernetes服务器集群主节点无法访问，工作节点可以访问
¥15 LCD12864中文显示
¥15 在使用CH341SER.EXE时不小心把所有驱动文件删除了怎么解决
¥15 gsoap生成onvif框架
¥15 有关sql server business intellige安装，包括SSDT、SSMS。
¥15 stm32的can接口不能收发数据
¥15 目标检测算法移植到arm开发板
¥15 利用JD51设计温度报警系统
¥15 快手联盟怎么快速的跑出建立模型

使用jieba切词时出现格式问题

2条回答 默认 最新

悬赏问题

2条回答默认最新