python中jieba.lcut切分词性标记的相关问题

题目：用jiaba给一个文件里的文本进行词性切分，然后把词性标记都输入到一个txt文件中。
出现了很多错误（在最后）

以下是源代码和我的编写思路

#coding:utf8
import re,os,jieba.posseg
def para2sentences_ccl(para): # 这个函数负责文本里面的句子按照 句末标点 分好段。
    marks = re.compile(r'。|？|……|？”|。”|！”')
    if marks.search(para):
        sentences_with_marks = marks.split(para)
        sentences = [''.join(sentence).strip() for sentence in zip(sentences_with_marks[0::2],sentences_with_marks[1::2])]
    else:
        sentences = [para]
    new_sentences = [s for s in sentences if s is not None]
    return new_sentences

def file2sentences_CCl_pos(file_path):#用来用jieba对句子进行切分，并成立新的只有词性标记的文件
    with open(file_path,'r',encoding='gb18030', errors='ignore') as fo:
        raw_lines = fo.readlines() #是在整合材料成一行行。
    cleaned_paras = [para2sentences_ccl(para) for para in raw_lines if para is not None] #把rawlines里面的句子按照para2sentence函数用句末标点分割。
    seg_sentences = [jieba.posseg.lcut(sentence)for sentence in cleaned_paras]#把上一句里面的句子用jieba切分成一对对pair
    flag_sentence = seg_sentences[1]#标出上一句切分出来的pair中的flag（词性标记）部分
    names = os.path.split(file_path)#将输进来的文件路径分割成路径和文件名
    txt_name = 'out'+names[1]#将上面的文件名前面加out
    txt_path = file_path.join(names[0],txt_name)#即把路径和txtname文件名组合，形成一个新的文件路径以及txt文件
    with open(txt_path,'r',-1,encoding='utf8')as txt:#打开这个新建文件
        for flag in flag_sentence:#循环输出flag_sentences里面的flag
            txt.writelines(flag + '\n')#每个flag用回车分成一段段
    return flag_sentence

file2sentences_CCl_pos(r'D:\Users\DELL\Desktop\从普通女孩到银行家.txt')

以下是出现的错误：

Traceback (most recent call last):
  File "C:/Users/DELL/PycharmProjects/111/homework/第五次作业.py", line 31, in <module>
    file2sentences_CCl_pos(r'D:\Users\DELL\Desktop\从普通女孩到银行家.txt')
  File "C:/Users/DELL/PycharmProjects/111/homework/第五次作业.py", line 20, in file2sentences_CCl_pos
    seg_sentences = [jieba.posseg.lcut(sentence)for sentence in cleaned_paras]
  File "C:/Users/DELL/PycharmProjects/111/homework/第五次作业.py", line 20, in <listcomp>
    seg_sentences = [jieba.posseg.lcut(sentence)for sentence in cleaned_paras]
  File "C:\ProgramData\Anaconda3\lib\site-packages\jieba\posseg\__init__.py", line 310, in lcut
    return list(cut(sentence, HMM))
  File "C:\ProgramData\Anaconda3\lib\site-packages\jieba\posseg\__init__.py", line 294, in cut
    for w in dt.cut(sentence, HMM=HMM):
  File "C:\ProgramData\Anaconda3\lib\site-packages\jieba\posseg\__init__.py", line 249, in cut
    for w in self.__cut_internal(sentence, HMM=HMM):
  File "C:\ProgramData\Anaconda3\lib\site-packages\jieba\posseg\__init__.py", line 217, in __cut_internal
    sentence = strdecode(sentence)
  File "C:\ProgramData\Anaconda3\lib\site-packages\jieba\_compat.py", line 79, in strdecode
    sentence = sentence.decode('utf-8')
AttributeError: 'list' object has no attribute 'decode'

######请问为什么会出现这些错误呢，要怎么更改

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

10条回答默认最新

Leodong. 2023-04-04 09:39

关注

该回答通过自己思路及引用到各个渠道搜索综合及思考,得到内容具体如下：

出现错误的原因是在进行分词操作时，将分好的句子列表传入了jieba.posseg.lcut()函数中，这导致了错误的发生。因为jieba.posseg.lcut()函数需要接收一个字符串类型的句子作为参数，而不是列表类型。

另外，代码中还有一些小错误，例如打开文件时使用了错误的参数、写入文件时使用了错误的函数等。

以下是修改后的代码，可以实现对文件的词性切分，并将词性标记写入到一个txt文件中：

import os
import jieba.posseg as pseg

def para2sentences_ccl(para):
    """将文本按照句末标点分割成句子"""
    marks = re.compile(r'。|？|！|!|……|…|…”|。”|？”')
    if marks.search(para):
        sentences_with_marks = marks.split(para)
        sentences = [''.join(sentence).strip() for sentence in zip(sentences_with_marks[0::2], sentences_with_marks[1::2])]
    else:
        sentences = [para]
    new_sentences = [s for s in sentences if s is not None]
    return new_sentences

def file2sentences_CCl_pos(file_path):
    """对文件进行词性切分，并将词性标记写入到一个txt文件中"""
    with open(file_path, 'r', encoding='utf-8') as f:
        text = f.read()
    sentences = para2sentences_ccl(text)
    flag_sentences = [pseg.lcut(sentence) for sentence in sentences]
    names = os.path.split(file_path)
    txt_name = 'out_' + names[1]
    txt_path = os.path.join(names[0], txt_name)
    with open(txt_path, 'w', encoding='utf-8') as f:
        for flag_sentence in flag_sentences:
            for word, flag in flag_sentence:
                f.write(word + '/' + flag + ' ')
            f.write('\n')
    return flag_sentences

file2sentences_CCl_pos(r'D:\Users\DELL\Desktop\从普通女孩到银行家.txt')

在修改后的代码中，file2sentences_CCl_pos()函数首先读取文件的内容，并将文本按照句末标点分割成句子。然后，对每个句子进行词性切分，并将词性标记写入到一个txt文件中。在写入时，每个词和它的词性标记用“/”连接，每个句子用回车分割。

注意，在本代码中，使用了utf-8编码，因此需要保证输入文件的编码为utf-8。如果文件编码不是utf-8，可以将open()函数中的encoding参数改为相应的编码类型。

如果以上回答对您有所帮助，点击一下采纳该答案～谢谢

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(9条)

报告相同问题？

关注问题

python中jieba.lcut切分词性标记的相关问题 python
2023-04-04 09:20

回答 10 已采纳该回答通过自己思路及引用到各个渠道搜索综合及思考,得到内容具体如下：出现错误的原因是在进行分词操作时，将分好的句子列表传入了jieba.posseg.lcut()函数中，这导致了错误的发生。因为ji
python中jieba库遇到的问题 python vscode 有问必答
2022-01-20 15:42

回答 2 已采纳看出来了，你不要用和库名一样的文件名把程序名改为 myjieba.py
在python中遇到jieba库出现Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache错误 python
2021-09-16 19:52

回答 1 已采纳你稍微多等一会试试我记得这个jieba要跑一会才会出结果
python中jieba lcut_Python中中文分词库的基本使用,python,jieba
2020-11-29 18:29

weixin_39638057的博客 1、安装一般直接pip install 库名即可进行第三方库安装pip install 库名切换安装源可避免超时问题pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 库名2、jieba简介jieba是基于python的中文分词工具，支持...
python使用pycharm中的jieba库应用未成功 python
2019-06-10 21:46

回答 1 已采纳安装了库你得导入啊很显然，jieba这个变量你没有导入啊 ```python import jieba jieba.load_userdict("async.txt")
python 中jieba安装成功，但是为什么spyder里运行不起 python 有问必答
2022-10-13 09:11

回答 3 已采纳题主电脑中有多个版本的python，安装jieba的python根据路径显示的是python3.9，而运行脚本的python版本是3.8.8 Python 3.8.8(default, Apr 13
python实现中文分词，jieba库实现中文分词自然语言处理
2022-11-24 22:45

回答 1 已采纳这是详细的教程https://blog.csdn.net/weixin_44095417/article/details/121146386
lcut在python_jieba结巴分词使用
2020-11-29 18:35

weixin_39889788的博客在python3的中文分词中，可以使用jieba来进行中文分词。jieba分词是一款免费的中文分词工具，既然是免费的，就凑合用吧。和不同领域专业的分词工具，区别在于词库上。像医疗中的很多名词，显然jieba是不认识的，用...
python jieba库调用不成功 python
2022-08-11 20:23

回答 4 已采纳感谢各位，已经解决了，在隔壁帖子找到了解决方法https://blog.csdn.net/national_/article/details/121594916
关于#python#的问题：python jieba库安装失败了怎么办 python 有问必答
2022-10-12 23:20

回答 3 已采纳题主电脑中有多个版本的python，安装jieba的python根据路径显示的是python3.9，而运行脚本的python版本是3.8.8 Python 3.8.8(default, Apr 13
Python的jieba库输出全部分词哪里出了问题 python
2022-06-02 11:36

回答 1 已采纳代码没错，只是你输出的内容错了可以参考 jieba.cut与jieba.lcut的区别_blackieliu的博客-CSDN博客_jieba.cut
python中lcut啥意思_python学习笔记——jieba库入门
2021-01-13 05:11

weixin_39634576的博客 python学习笔记——jieba库入门python学习笔记——jieba库入门一、查找官方文档https://pypi.org/project/jieba/二、介绍jieba(中文意思是“结巴”)中文文本切分：打造成最好的Python中文分词模块。支持四种分词模式...
python中jieba的使用 python
2021-08-22 15:31

回答 1 已采纳 jieba未定义需要先把模块jieba导进来才可以使用哦，如下图
【干货】Python：jieba库的使用
2021-12-04 20:30

调参侠鱼尾的博客 jieba分词与词性分类
lcut在python_jieba分词器详解及python实战
2020-11-29 18:35

weixin_39622587的博客版权声明：本文为博主原创文章，...本文详细介绍现在非常流行的且开源的分词器结巴jieba分词器，并使用python实战介绍。jieba分词算法使用了基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能生成词情况所...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月4日

悬赏问题

¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改
¥20 wireshark抓不到vlan
¥20 关于#stm32#的问题：需要指导自动酸碱滴定仪的原理图程序代码及仿真
¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
¥15 stata安慰剂检验作图但是真实值不出现在图上
¥15 c程序不知道为什么得不到结果
¥40 复杂的限制性的商函数处理
¥15 程序不包含适用于入口点的静态Main方法
¥15 素材场景中光线烘焙后灯光失效

python中jieba.lcut切分词性标记的相关问题

以下是源代码和我的编写思路

10条回答 默认 最新

问题事件

悬赏问题

10条回答默认最新