最近基于谷歌开源库Tesseract 3.3 做了一个图像识别项目;
发现了以下几个问题
1.字体较多时合成训练样本生成模板后 会出现字体冲突(我瞎猜的),具体表现是 :
当某一个字体样本与另外一个字体混合训练时会导致另外一个字体的训练无效化 (也不是所有的字体混合都会,某些字体混合又可以,目前没发现其规律),分开训练识别又没问题
2.当识别某些没有经过训练的字体时,Tesseract大概率随机匹配一个值(0~9 )由于
识别内容为纯数字且比较简单(类似于123456然后识别成123457),出现识别错了但任然能找到其他数据,导致匹配异常,问题1最终结果也有大概率随机匹配一个值