最大正向匹配分词法报错求解

# -*- coding: utf-8 -*-
import codecs
import xlrd2
def read_dic(dic_path):
    words_dic=xlrd2.open_workbook(dic_path)
    #打开工作簿，也就是词表
    sheet=words_dic.sheets()[0]
    dic_list=list(sheet.col_values(1))[1:]
    #通过遍历找出每一列的数据，括号里面的代表只取第几列的值
    return dic_list
#完成字典词表的输入
def read_file(file_path):
    with codecs.open(file_path,"r",encoding="utf8")as f:
        file=f.readlines()
        return file
#完成被处理的文件的输入
def cut_word(raw_sentences,word_dic):
 #设一个切词的函数
    max_length=max(len(word) for word in word_dic)
    new_cut=[]
    #建一个新的空白集合，留着装新切的词
    for sentence in raw_sentences:
        sentence=sentence.strip()
     #把句子两边的空格都删掉
        sent_length=len(sentence)
        cut_word_list=[]
        while sent_length>0:
            cut_length=(min(sent_length,max_length))
            for i in range(cut_length,0,-1):
                #从0到cut_length的范围，步数为-1，即每次都减少1
                new_word = [sent_length]
                if new_word in word_dic:
                    new_cut.append(new_word)#如果切的新词在词典里面有，就把它放进新集合里
                    cut_length=cut_length-i
                    break
                elif i==1:
                    new_cut.append(new_word)
                    sent_length=sent_length-1
        words='/'.join(str(cut_word_list))
        new_cut.append(words.lstrip('/'))
    return  new_cut
def out_file(out_path,sentences):
    with codecs.open(out_path,'a','utf8')as f:
        for sentence in sentences:
            f.write(sentence)
def main():
    file_path=r"C:\Users\Apple\Desktop\7.txt"
    file=read_file(file_path)
    dic_path=r"C:\Users\Apple\Desktop\词表.xlsx"
    words_dic=read_dic(dic_path)
    content_cut=cut_word(file,words_dic)
    out_path=r"C:\Users\Apple\Desktop\分词结果.txt"
    out_file(out_path,content_cut)
if __name__ == '__main__':
    main()



File "C:/Users/Apple/AppData/Roaming/JetBrains/PyCharmCE2020.3/scratches/正向最大匹配运算.py", line 33, in cut_word
    if new_word in word_dic:
TypeError: 'in <string>' requires string as left operand, not list

请教大家，出现这种报错怎么办呀

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
澈丹丶 2021-03-22 08:27
关注
31行的new_word = [sent_length]，是创建new_word为list。如果想看new_word是否为word_dic的子集，需要循环new_word，确认是否每个元素都在word_dic中，或者使用set()。没有细看你的代码，但感觉你31行的代码想要实现的，应该是new_word=sentence[i] 这样的。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

最大正向匹配分词法报错求解 python 自然语言处理
2021-03-20 17:12

回答 1 已采纳 31行的new_word = [sent_length]，是创建new_word为list。如果想看new_word是否为word_dic的子集，需要循环new_word，确认是否每个元素都在word
想知道自然语言处理分词时如何如何抉择正向最大匹配、逆向最大匹配和双向最大匹配自然语言处理
2023-01-18 07:48

回答 2 已采纳首先我们要明白：正向最大匹配是采用从左到右的方式，从句子中抽取一个子串作为一块词；逆向最大匹配是采用从右到左的方式，从句子中抽取一个子串作为一块词；而双向最大匹配是采用正向最大匹配和逆向最大匹配的结合
链表如何正向输出，求解 c++ c语言
2023-02-14 20:50

回答 5 已采纳可以使用递归的方式正向输出链表，即先递归输出链表的后续部分，再输出当前节点的值。具体实现可以参考下面的代码： void PrintList(List L) { if(L != NULL)
【剑指offer】高频ML/DL面试题
2021-05-25 01:24

山顶夕景的博客完成强化学习算法（CPG PPO A3C Q-learning DQN）在贪吃蛇环境的应用（即作出控制贪吃蛇的智能体）在github上找到对应算法的代码并跑通代码阅读理解代码的实现逻辑，对代码中用到的重要函数查阅和理解对算法的...
正向传播求解如何将矩阵代入函数深度学习神经网络
2023-02-14 13:12

回答 2 已采纳将矩阵中的每一个元素代入函数即可：1/1+e^(-1.2)1/1+e^(-9.6)1/1+e^(-11.4)以上回答来自ChatGPT
正向超前+重叠匹配正则表达式
2017-12-27 15:16

回答 2 已采纳 I only tried this on regex101 (marked golang regex), but it seems that it works as expected: %[0-
nginx 报错upstream timed out (110:Connection timed out) linux nginx
2020-05-11 20:16

回答 2 已采纳网络策略未开通
NLP 自然语言处理实战
2023-12-26 08:45

AAI机器之心的博客本文将从分词、词频、词向量等基础领域开始讲解自然语言处理的原理，讲解 One-Hot、TF-IDF、PageRank 等算法及 LDA、LDiA、LSA 等语义分析的原理。
没有报错，但是运行不停止。 c语言数据结构
2021-09-26 22:39

回答 2 已采纳 x不等于9999就会一直循环。你给的一个是1，一个是2。
正向代理和反向代理到底什么区别 java nginx 网络
2021-12-02 12:42

回答 3 已采纳你先看点资料：https://www.cnblogs.com/taostaryu/p/10547132.html 不要纠结于屏蔽了什么东西，这都是些抽象概念，你先看图，看能不能看懂。本质上的区别就在于
非主键如何实现正向排序问题 mysql
2022-06-23 11:28

回答 1 已采纳默认显示的顺序都是以数据先后插入的顺序显示的，你可以创建一个视图（view），创建后也会在数据库对象中显示。创建视图的时候可以把order by规则写进去（视图中可以自定义查询SQL），这样你每次查看
Python数据预处理
2021-11-19 09:50

怎么会这么难的博客 Python数据预处理技术与实践 ...搜索引擎是中文分词的一个应用相关度排序：把最相关的结果排在最前面。受中文分词的准确度影响。 2. Python科学计算工具 NumPy SciPy Pandas 3. 数据采集与存储数据形式：
js逆向，js正向指的啥呢？ javascript python
2022-09-20 10:57

回答 3 已采纳 js正向么有这个说法吧！就是js,至于逆向js是由结果往前推,得到这些结果需要哪些条件, 然后准备好这些条件,用代码去模拟浏览器js生成结果的过程,获得想要的结果，写网络爬虫时会用，本人搞过，就是分析
2022 面试宝典
2022-07-05 22:38

你们都是坏孩子00的博客 A 系统从 MQ 中慢慢拉取请求，每秒钟就拉取 2k 个请求，不要超过自己每秒能处理的最大请求数量就 ok，这样下来，哪怕是高峰期的时候，A 系统也绝对不会挂掉。而 MQ 每秒钟 5k 个请求进来，就 2k 个请求出去，结果就...
校招python总结--建议全文背诵
2022-03-21 01:05

BineHello的博客元组和列表最大的区别就是，列表中的元素可以进行任意修改，就好比是用铅笔在纸上写的字，写错了还可以擦除重写；而元组中的元素无法修改，除非将元组整体替换掉，就好比是用圆珠笔写的字，写了就擦不掉了，除非换...
没有解决我的问题, 去提问

悬赏问题

¥15 安装svn网络有问题怎么办
¥15 Python爬取指定微博话题下的内容，保存为txt
¥15 vue2登录调用后端接口如何实现
¥65 永磁型步进电机PID算法
¥15 sqlite 附加（attach database）加密数据库时，返回26是什么原因呢？
¥88 找成都本地经验丰富懂小程序开发的技术大咖
¥15 如何处理复杂数据表格的除法运算
¥15 如何用stc8h1k08的片子做485数据透传的功能？(关键词-串口)
¥15 有兄弟姐妹会用word插图功能制作类似citespace的图片吗？
¥15 latex怎么处理论文引理引用参考文献

最大正向匹配分词法报错求解

1条回答 默认 最新

悬赏问题

1条回答默认最新