飞花似梦 2019-08-05 15:37 采纳率: 0%
浏览 2349

如何用python对英文文本进行分句?

刚入门nlp,最近需要设计一个文本分句工具,本来以为很简单,但是想了一下需要考虑的问题很多,因为英文的句号容易和小数点,人名地名缩写,省略号等等混淆。尤其在句号前后没有空格的情况下,感觉很难准确判定英文句号处是否需要进行断句。我现在的思路就是列举所有可能的情况(小数点,缩写),对每一个句号的上下文进行检查,用正则表达式判断是否为句号,再进行分句。但是这样做有两个问题:一是可能发生歧义的情况很难列举wan,二是类似于“my age is 13.13 is my age." 这种句子单纯依靠规则很难识别。我之前使用的是nltk的sent__tokenize方法,但是这个工具没有办法处理句号前后无空格的情况。所以想问一下大佬们一般在对文本分句的时候是怎么做的?

  • 写回答

2条回答 默认 最新

  • Booker-Liu 2019-08-05 16:31
    关注

    给你一个思路,判断英文句号前后字符为数字还是英文,参照ASC码表

    评论

报告相同问题?

悬赏问题

  • ¥17 pro*C预编译“闪回查询”报错SCN不能识别
  • ¥15 微信会员卡接入微信支付商户号收款
  • ¥15 如何获取烟草零售终端数据
  • ¥15 数学建模招标中位数问题
  • ¥15 phython路径名过长报错 不知道什么问题
  • ¥15 深度学习中模型转换该怎么实现
  • ¥15 Stata外部命令安装问题求帮助!
  • ¥15 从键盘随机输入A-H中的一串字符串,用七段数码管方法进行绘制。提交代码及运行截图。
  • ¥15 TYPCE母转母,插入认方向
  • ¥15 如何用python向钉钉机器人发送可以放大的图片?