在学习利用二元文法模型进行二元分词的时候,运转的结果没有实现分词的效果,之前在做其它案例练习时也是出现这种挤在一堆的现象,不知道是不是我哪里没有设置好?
代码
import re
sent="I want to eat Chinese food."
lst_sent=sent.split(".")
lst_sent1=[re.sub('\W','',i) for i in lst_sent]
bigram=[]
for i in range(len(lst_sent1)-1):
bigram.append(lst_sent1[i]+""+lst_sent1[i+1])
print(bigram)
运行结果
['IwanttoeatChinesefood']
我想要达到的结果
正确的分词结果应该是
['I want','want to','to eat',''eat Chinese','Chinese food']