刚入门nlp,最近需要设计一个文本分句工具,本来以为很简单,但是想了一下需要考虑的问题很多,因为英文的句号容易和小数点,人名地名缩写,省略号等等混淆。尤其在句号前后没有空格的情况下,感觉很难准确判定英文句号处是否需要进行断句。我现在的思路就是列举所有可能的情况(小数点,缩写),对每一个句号的上下文进行检查,用正则表达式判断是否为句号,再进行分句。但是这样做有两个问题:一是可能发生歧义的情况很难列举wan,二是类似于“my age is 13.13 is my age." 这种句子单纯依靠规则很难识别。我之前使用的是nltk的sent__tokenize方法,但是这个工具没有办法处理句号前后无空格的情况。所以想问一下大佬们一般在对文本分句的时候是怎么做的?
关注
码龄 粉丝数 原力等级 --
- 被采纳
- 被点赞
- 采纳率
如何用python对英文文本进行分句?
收起
- 写回答
- 好问题 0 提建议
- 关注问题
微信扫一扫点击复制链接分享
- 邀请回答
- 编辑 收藏 删除 结题
- 收藏 举报
2条回答
- 关注
码龄 粉丝数 原力等级 --
- 被采纳
- 被点赞
- 采纳率
Booker-Liu 2019-08-05 16:31关注给你一个思路,判断英文句号前后字符为数字还是英文,参照ASC码表
本回答被题主选为最佳回答 , 对您是否有帮助呢? 本回答被专家选为最佳回答 , 对您是否有帮助呢? 本回答被题主和专家选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏举报
微信扫一扫点击复制链接分享
评论按下Enter换行,Ctrl+Enter发表内容
报告相同问题?
提交
- 2024-03-02 20:24中英文语料数据清洗及分布式分句分词预处理工作 代码包括: 如何批量读取文件夹及子文件夹下的数据 如何将批量整合文件夹及子文件下的数据 匹配中英文里可能出现的所有特殊字符 匹配各类网址及网页标签 匹配希腊...
- 2024-08-25 16:05资料说明:该文件利用python爬虫技术和jieba中文分词库对上市公司年报内容 进行提取,可获得上市公司年报中某个或某些关键词出现的频数,除以年报总字数或者总词 数可以构建相关数据,例如上市公司数字化转型程度等...
- 2024-10-28 09:45蒙娜丽宁的博客 自然语言处理(NLP)是人工智能中的一个重要领域,旨在使计算机能够理解和处理人类语言。在各种NLP工具和库中,spaCy凭借其高效、简洁的API和丰富的功能成为Python开发者的首选。本文详细介绍如何使用spaCy进行文本...
- 2022-07-06 16:50汀、人工智能的博客 中文分句re.split(),jieba分词和词频统计FreqDist_zhuzuwei的博客-CSDN博客_jieba 分句NLTK使用笔记,NLTK是常用的Python自然语言处理库然而当我处理小说文本时,发现了这种思路的漏洞:所以,这里我提供一个更加...
- 2023-02-12 21:56BIG-HO的博客 在 Python 中,您可以使用许多库来实现在线评论的情感分析,例如: NLTK:这是一个强大的自然语言处理库,提供了各种工具和技术来处理文本数据。 TextBlob:这是一个简单易用的库,用于语言处理和文本分析。 ...
- 2024-02-02 16:45HaiLang_IT的博客 毕业设计:基于深度学习的...对于计算机专业、软件工程专业、人工智能专业、大数据专业的毕业生而言,无论您对深度学习技术保持浓厚兴趣,还是希望探索机器学习、算法或人工智能的领域的同学,能为您提供灵感和指导。
- 2025-04-06 20:42Python爬虫项目的博客 文本摘要(Text Summarization)是指通过自然语言处理技术,从原始文本中提取出简洁而具有代表性的信息,生成一个较短的摘要。提取式摘要:通过提取原文中的一些重要句子或段落来生成摘要,保留原文中的词语和结构。...
- 2023-02-14 11:37无声远望的博客 首先,您需要选择一个文本分析库,如NLTK或Janome,来帮助您处理日语文本。接下来,您可以使用这些库中的功能,如词频统计,词性标注等,来分析日语文本。 关于可视化,您可以使用matplotlib库来绘制图形,如词频...
- 2024-11-22 17:35蒙娜丽宁的博客 本文将探讨如何使用Python结合NLP工具(如NLTK和spaCy)构建一个文本摘要模型,并深入解析文本摘要的基本方法。通过逐步实现基于提取式方法的摘要模型,我们将展示如何提取重要句子生成简明的文本摘要。
- 2025-11-23 10:53PythonFun的博客 该方案包含文档读取、智能分句、机器翻译、句级对齐等完整流程,具有个性化程度高、灵活性强等优势,使译者无需专业CAT软件即可进行译后编辑。文章详细展示了代码实现过程,包括翻译模块定义、主程序编写及进阶优化...
- 2022-02-22 18:02Maann的博客 做nlp的时候,我们数据往往是一篇文章或者一大段文字,在进行其他处理之前,你需要先对文章进行切割或者处理(去除多余字符、特殊符号,分句和分词),或者是分句以句子级别为最小单位进行后续处理。那么如何进行分句...
- 2022-04-15 12:00风度78的博客 自然语言处理分析的最基本和初始步骤是关键词提取,在NLP中,我们有许多算法可以帮助我们提取文本数据的关键字。本文中,云朵君将和大家一起学习四种即简单又有效的方法,它们分别是Rake、Yake、Keybert 和 Textrank...
- 2023-12-13 11:25程序员光剑的博客 人工智能(Artificial Intelligence,AI)是计算机科学的一个分支,研究如何让计算机模拟人类的智能。人工智能的目标是让计算机能够理解自然语言、学习从数据中提取信息、解决问题、自主决策、理解人类的情感、理解...
- 2022-11-07 17:33医学小达人的博客 Python 文本语义识别,文本转化为图数据库,文本摘要图展示,文本结构化为图谱,文本数据图谱化
- 2022-05-07 10:59北村南的博客 NLP自然语言处理之NLTK工具的使用,进行英文情感分析、分词、分句、词性标注(附代码)
- 2020-09-21 01:46在Python编程中,自然语言处理(NLP)是一项关键技能,尤其在数据分析、文本挖掘和人工智能应用中。NLTK(Natural Language Toolkit)是Python中一个非常重要的自然语言处理库,它为开发者提供了丰富的功能,包括...
- 2021-06-22 15:59Hello AI!的博客 先针对训练文本进行分词处理(词干提取, 原型提取), 统计词频, 通过词频-逆文档频率算法获得该词对整个样本语义的贡献, 根据每个词对语义的贡献力度, 构建有监督分类学习模型. 把测试样本交给模型处理, 得到测试样本...
- 2024-02-13 08:18酷爱码的博客 《Python文本查重完整指南》摘要 本文系统介绍了使用Python实现文本查重的多种方法。基础方法包含字符串匹配(difflib库)和哈希算法,适用于快速检测重复内容。进阶方案采用TF-IDF向量化和余弦相似度计算,提升...
- 2025-04-30 17:08www_pp_的博客 此外,工具还会对摘要句子进行去重,确保摘要中没有重复的句子。这个基于 Python 和 jieba 的中文文本自动摘要工具简单易用,能够快速从长文本中提取关键信息。它适用于多种文本处理场景,如新闻摘要、文献综述等。...
- 2025-04-05 11:39Python作为一门广泛应用于自动化、数据分析、人工智能等领域的编程语言,其简洁直观的语法使得开发者能够快速构建实用的程序。结合翻译API,开发者可以编写出具有专业水准的汉译英翻译脚本,突破大语言模型的字数...
- 没有解决我的问题, 去提问