有啥能像jieba一样把一段英文句子拆成几组相关的词组吗？

比如说 this is a good test，我要提出来 “this” “is ” “a ” “good test”。在处理一个文本要进行对高频词进行提取时，会出现有大量单一个存在没有什么参考价值的名词，这时候往往就要带上前面的形容词。但是nltk库貌似只能实现把句子拆成每一个单词，有无想jieba那样的英文词语识别组合的工具可以解决这个问题？如果没有，那如何实现我想要的效果。谢谢佬们了

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
憧憬blog 2023-07-07 18:17
关注
有类似于jieba的英文分词工具，例如NLTK、spaCy、TextBlob等。这些工具可以将英文文本分成单词、短语和命名实体等单位。

在NLTK中，您可以使用分块（chunking）技术将邻近的词组合成短语。下面是一个简单的示例代码：

import nltk from nltk.tokenize import word_tokenize from nltk.chunk import RegexpParser # 定义正则表达式来匹配名词短语 grammar = r""" NP: {<DT|PP\$>?<JJ>*<NN>} # 匹配形容词+名词 {<NNP>+} # 匹配连续的专有名词 {<PRP>} # 匹配人称代词 """ # 创建分块器 chunk_parser = RegexpParser(grammar) # 分词 text = "This is a good test. I like it." tokens = word_tokenize(text) # 标记词性 tagged_tokens = nltk.pos_tag(tokens) # 进行分块 tree = chunk_parser.parse(tagged_tokens) # 提取名词短语 noun_phrases = [] for subtree in tree.subtrees(filter=lambda t: t.label() == 'NP'): noun_phrases.append(' '.join(word for word, tag in subtree.leaves())) print(noun_phrases) # ['a good test', 'it']

在上面的代码中，我们首先使用NLTK的word_tokenize函数将文本分成单词，然后使用nltk.pos_tag函数标记每个单词的词性。接下来，我们定义了一个简单的正则表达式来匹配名词短语，并将其传递给RegexpParser对象创建一个分块器。最后，我们使用分块器将文本分块，并提取所有的名词短语。

请注意，这只是一个简单的示例，具体的分块规则可以根据您的需求进行修改和优化。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

请问使用jieba分词如何避免把我的时间词分开？ nlp python 自然语言处理
2022-04-29 20:27

回答 1 已采纳能不能用正则表达式先将这些筛出来，然后将其在语料中的删除，新的语料使用jieba分词，最后将两组词拼接
python中jieba分词怎么把字母一个一个单独分开。 python 中文分词自然语言处理
2020-07-29 18:51

回答 1 已采纳 ``` import re sentence="hello你好" result=re.sub(r"([a-zA-Z])",r"\1 ", sentence) print(result.rs
为啥我安装了jieba模块但仍显示No module named "jieba"(语言-python) python
2023-03-28 11:54

回答 2 已采纳这种情况可能是因为您安装的jieba模块与您要运行的Python程序所使用的Python环境不一致导致的。确认Python版本：您可以在命令行输入"python --version"，查看当前Pyt
语言分词，jieba结巴分词，vc++ 2010，jieba分词用于分解句子识别词语
2023-12-15 00:15

　全模式：把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义　搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词　２）支持繁体分词　３）支持...
jieba词性标注完如何把同一类型的词性放一起？ nlp python 有问必答自然语言处理
2022-02-26 13:56

回答 2 已采纳用with open打开txt文档，如何词性标是按行保存的话，读取成列表形式，用判断语句进行归类。得到词性时，我们就可以根据词性进行筛选。 import jieba.posseg as pseg wo
怎么对Excel中的一列进行jieba分词并去停用词？ python 自然语言处理
2023-02-08 10:50

回答 1 已采纳导入pandas 用python读取excel文件，一个方法搞定，然后获取需要处理的数据列，导入jieba分词库，分词即可。停用词表网上有，循环停用词，判断分词结果中有这个停用词，就从分词结果中删除。
安装jieba库出现黄色警告怎么办，import jieba不能用 python
2021-11-03 15:02

回答 1 已采纳就是因为你py文件名字也叫jieba导致的这个会被python当作模块的与已有的jieba模块会冲突啊
simhash-demo:simhash算法的简单演示，用jieba把中文句子分词
2021-07-22 01:17

A simple demonstrate of simhash algorithm, use jieba to divide the Chinese sentence into words. ###jieba “结巴”中文分词：做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text ...
python怎么把jieba分词后的结果导入excel中啊
2017-07-19 15:45

回答 1 已采纳 http://blog.csdn.net/u014070086/article/details/73201590
python jieba库调用不成功 python 开发语言
2022-10-09 08:45

回答 2 已采纳
python实现中文分词，jieba库实现中文分词自然语言处理
2022-11-24 22:45

回答 1 已采纳这是详细的教程https://blog.csdn.net/weixin_44095417/article/details/121146386
jieba青春有你2自定义python分词词典
2020-04-28 22:53

jieba青春有你2自定义分词词典，青春有你2评论爬取，青春有你2视频饭圈自定义分词词典，jieba分词Python分词词典
有知道这个代码错在哪里的吗？ python 有问必答
2021-06-28 08:13

回答 2 已采纳有两处错误要改，都是在最后一段代码里，第一，for i in txt.readlines():，txt已经是字符串，没有readlines方法。第二，循环中变量i也是字符串，它没有str属性方法，应该
用python结合jieba和wordcloud实现词云效果
2020-12-23 21:27

突然想做一个漏洞词云，看看哪些漏洞比较高频，如果某些厂商有漏洞公开(比如ly)，也好针对性挖掘。就选x云吧（镜像站 http://wy.hxsec.com/bugs.php ）。用jieba和wordcloud两个强大的第三方库，就可以轻松打造出x云...
kmeans.rar_V2K_jieba有kmeans_word2vec_中文文本
2022-07-14 04:57

jieba分词将中文文本进行分词处理，将分词后的结果使用word2vec转化成词向量，使用kmeans将中文文本进行聚类
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月7日

悬赏问题

¥30 udp socket，bind 0.0.0.0 ，如何自动选取用户访问的服务器IP来回复数据
¥15 大一新生的编程，不知道该怎么弄。
¥15 关于树的路径求解问题
¥15 yolo在训练时候出现File "D:\yolo\yolov5-7.0\train.py"line 638,in <module>
¥30 戴尔inspiron独显直连
¥15 进行一项代码设计遇到问题
¥15 Mutisim中关于74LS192N计数器芯片设计（计数器）
¥50 fastadmin后台无法删除文件
¥15 oracle查询Socket read timed out错误
¥15 matlab支持向量机使用错误

有啥能像jieba一样把一段英文句子拆成几组相关的词组吗？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新