python的jieba分词如何把“很”这类词单独划分出来?“这道菜很腻”,自定义词典中有“腻”这个单字,但是jieba切出来还是“很腻”,我想要的效果是“很”“腻”这样,请问大家有什么方法吗?
1条回答 默认 最新
- bruce_abc 2023-03-05 17:54关注
可以通过调整jieba分词中的词频来实现将“很”这类词单独划分出来的效果。
首先,需要将自定义词典中的单字加入到jieba的词典中,可以使用以下代码:import jieba jieba.load_userdict('userdict.txt')
其中,
userdict.txt
是自定义词典文件名,文件格式为每行一个词,词语后面可以跟随词频,例如:腻 100
然后,可以将“很”这类词的词频调整为较高的值,例如:import jieba jieba.add_word('很', freq=1000)
最后,使用
jieba.cut()
函数进行分词时,可以加上cut_all=False
参数,表示使用精确模式,这样就能够将“很”这类词单独划分出来了,例如:import jieba jieba.load_userdict('userdict.txt') jieba.add_word('很', freq=1000) text = '这道菜很腻' words = jieba.cut(text, cut_all=False) print(list(words))
输出结果为:
['这道菜', '很', '腻']解决 无用评论 打赏 举报
悬赏问题
- ¥15 无源定位系统的时差估计误差标准差
- ¥15 请问这个代码哪里有问题啊
- ¥20 python--version在命令端输入结果Python is not defined怎么办?还有pip不是exe格式是不是没安装成功?
- ¥15 通过GaussianView进行结构微调消除虚频
- ¥15 调用transformers库
- ¥15 由于导出的数据名字中带有/,导致Matlab打不开,怎么办?
- ¥15 新硬盘安装的程序总是崩溃,提示遇到错误
- ¥15 openpcdet自制数据集评估bev精度和3d精度相同
- ¥15 excel 上下按钮 显示行
- ¥20 云卓h12pro 数传问题