Haven55555 2019-12-31 15:30 采纳率: 0%
浏览 300
已结题

谷歌开源OCR Tesseract 3.0,能不能设置只识别手动训练过的样本,其他的返回空

最近基于谷歌开源库Tesseract 3.3 做了一个图像识别项目;
发现了以下几个问题
1.字体较多时合成训练样本生成模板后 会出现字体冲突(我瞎猜的),具体表现是 :
当某一个字体样本与另外一个字体混合训练时会导致另外一个字体的训练无效化 (也不是所有的字体混合都会,某些字体混合又可以,目前没发现其规律),分开训练识别又没问题

2.当识别某些没有经过训练的字体时,Tesseract大概率随机匹配一个值(0~9 )由于
识别内容为纯数字且比较简单(类似于123456然后识别成123457),出现识别错了但任然能找到其他数据,导致匹配异常,问题1最终结果也有大概率随机匹配一个值

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 已结题 (查看结题原因) 2月14日

    悬赏问题

    • ¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
    • ¥15 (希望可以解决问题)ma和mb文件无法正常打开,打开后是空白,但是有正常内存占用,但可以在打开Maya应用程序后打开场景ma和mb格式。
    • ¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
    • ¥20 腾讯企业邮箱邮件可以恢复么
    • ¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗?
    • ¥15 错误 LNK2001 无法解析的外部符号
    • ¥50 安装pyaudiokits失败
    • ¥15 计组这些题应该咋做呀
    • ¥60 更换迈创SOL6M4AE卡的时候,驱动要重新装才能使用,怎么解决?
    • ¥15 让node服务器有自动加载文件的功能