一最安 2022-04-29 20:27 采纳率: 84.4%
浏览 153
已结题

请问使用jieba分词如何避免把我的时间词分开?

img

img

img


如图,如何避免jieba分词将时间词分割开,比如


['4', '月', '28', '日', ',', '李大钊', '在', '北京', '英勇', '就义', '。']    #希望分出来的是”4月28日“
['4', '月初', ',', '蒋介石', '等', '在', '上海', '举行', '秘密会议']    #希望分出来的是”4月初“
['1927', '年', '3', '月', '21', '日', ',', '当', '北伐军', '推进', '到', '上海', '近郊', '时']  #希望分出来的是”1927年3月21日“

麻烦的点在于输入的文本的时间词也并不是很规范的”XX年AA月MM日“的形式,有的有年、有的没有月和日,大概需要实现一个模糊匹配不分开的效果,请赐教,不胜感激。

  • 写回答

1条回答 默认 最新

  • WUNNAN 2022-04-30 18:27
    关注

    能不能用正则表达式先将这些筛出来,然后将其在语料中的删除,新的语料使用jieba分词,最后将两组词拼接

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 1月24日
  • 已采纳回答 1月16日
  • 创建了问题 4月29日

悬赏问题

  • ¥20 西南科技大学数字信号处理
  • ¥15 有两个非常“自以为是”烦人的问题急期待大家解决!
  • ¥30 STM32 INMP441无法读取数据
  • ¥15 R语言绘制密度图,一个密度曲线内fill不同颜色如何实现
  • ¥100 求汇川机器人IRCB300控制器和示教器同版本升级固件文件升级包
  • ¥15 用visualstudio2022创建vue项目后无法启动
  • ¥15 x趋于0时tanx-sinx极限可以拆开算吗
  • ¥15 pyqt信号槽连接写法
  • ¥500 把面具戴到人脸上,请大家贡献智慧,别用大模型回答,大模型的答案没啥用
  • ¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面,不要作在线的,要离线状态。