首先是,我们对程序输入一段文字,文字中包含很多关键字,且关键字一般不会重复,而且有优先级
这里进行举例:给我算个沪A123458的价格,续保的
关键字库有分类
A类:续保,续个保,续保的,上年人保,续
B类:转保,转保的,上年其他公司
C类:算价,算个价,给个价格,
文字识别的逻辑是,先识别一段文字中的车牌,一段文字中有且只有一个车牌,而且车牌的规则是一个前缀,后续一个字母,然后5或6个字母或数字,这里有个重要点,这段文字里车牌后不会有干扰性的字母或数字,例如,车牌沪A123456续保,这里的车牌就是沪A123456而不是沪A12345
文字识别后,我的想法是,识别完成后,将已识别的文字删除,继续识别剩下的文字
另外,识别文字得到结果后输出是格式文档,举个例子:给我算个沪A123458的价格,续个保的
识别的结果是:
续保;
某支公司某业务员;
沪A123458;
如果语句中包含A、B、C三大类的语言,只显示A类,且A类统一后为“续保;”
如果语句中包含B、C类,则优先显示B类,且统一为“录单;”
如果语句中只有C类,也是统一为“录单;”