一最安 2022-04-29 20:27 采纳率: 84.4%
浏览 141
已结题

请问使用jieba分词如何避免把我的时间词分开?

img

img

img


如图,如何避免jieba分词将时间词分割开,比如


['4', '月', '28', '日', ',', '李大钊', '在', '北京', '英勇', '就义', '。']    #希望分出来的是”4月28日“
['4', '月初', ',', '蒋介石', '等', '在', '上海', '举行', '秘密会议']    #希望分出来的是”4月初“
['1927', '年', '3', '月', '21', '日', ',', '当', '北伐军', '推进', '到', '上海', '近郊', '时']  #希望分出来的是”1927年3月21日“

麻烦的点在于输入的文本的时间词也并不是很规范的”XX年AA月MM日“的形式,有的有年、有的没有月和日,大概需要实现一个模糊匹配不分开的效果,请赐教,不胜感激。

  • 写回答

1条回答 默认 最新

  • WUNNAN 2022-04-30 18:27
    关注

    能不能用正则表达式先将这些筛出来,然后将其在语料中的删除,新的语料使用jieba分词,最后将两组词拼接

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 1月24日
  • 已采纳回答 1月16日
  • 创建了问题 4月29日

悬赏问题

  • ¥50 有数据,怎么建立模型求影响全要素生产率的因素
  • ¥50 有数据,怎么用matlab求全要素生产率
  • ¥15 TI的insta-spin例程
  • ¥15 完成下列问题完成下列问题
  • ¥15 C#算法问题, 不知道怎么处理这个数据的转换
  • ¥15 YoloV5 第三方库的版本对照问题
  • ¥15 请完成下列相关问题!
  • ¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像,如何解决?
  • ¥15 求daily translation(DT)偏差订正方法的代码
  • ¥15 js调用html页面需要隐藏某个按钮