飞花似梦 2019-08-05 15:37 采纳率: 0%
浏览 2349

如何用python对英文文本进行分句?

刚入门nlp,最近需要设计一个文本分句工具,本来以为很简单,但是想了一下需要考虑的问题很多,因为英文的句号容易和小数点,人名地名缩写,省略号等等混淆。尤其在句号前后没有空格的情况下,感觉很难准确判定英文句号处是否需要进行断句。我现在的思路就是列举所有可能的情况(小数点,缩写),对每一个句号的上下文进行检查,用正则表达式判断是否为句号,再进行分句。但是这样做有两个问题:一是可能发生歧义的情况很难列举wan,二是类似于“my age is 13.13 is my age." 这种句子单纯依靠规则很难识别。我之前使用的是nltk的sent__tokenize方法,但是这个工具没有办法处理句号前后无空格的情况。所以想问一下大佬们一般在对文本分句的时候是怎么做的?

  • 写回答

2条回答

  • Booker-Liu 2019-08-05 16:31
    关注

    给你一个思路,判断英文句号前后字符为数字还是英文,参照ASC码表

    评论

报告相同问题?

悬赏问题

  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 对于相关问题的求解与代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 信号傅里叶变换在matlab上遇到的小问题请求帮助
  • ¥15 保护模式-系统加载-段寄存器
  • ¥15 电脑桌面设定一个区域禁止鼠标操作
  • ¥15 求NPF226060磁芯的详细资料
  • ¥15 使用R语言marginaleffects包进行边际效应图绘制