Haven55555 2019-12-31 15:30 采纳率: 0%
浏览 300
已结题

谷歌开源OCR Tesseract 3.0,能不能设置只识别手动训练过的样本,其他的返回空

最近基于谷歌开源库Tesseract 3.3 做了一个图像识别项目;
发现了以下几个问题
1.字体较多时合成训练样本生成模板后 会出现字体冲突(我瞎猜的),具体表现是 :
当某一个字体样本与另外一个字体混合训练时会导致另外一个字体的训练无效化 (也不是所有的字体混合都会,某些字体混合又可以,目前没发现其规律),分开训练识别又没问题

2.当识别某些没有经过训练的字体时,Tesseract大概率随机匹配一个值(0~9 )由于
识别内容为纯数字且比较简单(类似于123456然后识别成123457),出现识别错了但任然能找到其他数据,导致匹配异常,问题1最终结果也有大概率随机匹配一个值

  • 写回答

0条回答

    报告相同问题?

    问题事件

    • 已结题 (查看结题原因) 2月14日

    悬赏问题

    • ¥15 求差集那个函数有问题,有无佬可以解决
    • ¥15 【提问】基于Invest的水源涵养
    • ¥20 微信网友居然可以通过vx号找到我绑的手机号
    • ¥15 寻一个支付宝扫码远程授权登录的软件助手app
    • ¥15 解riccati方程组
    • ¥15 display:none;样式在嵌套结构中的已设置了display样式的元素上不起作用?
    • ¥15 使用rabbitMQ 消息队列作为url源进行多线程爬取时,总有几个url没有处理的问题。
    • ¥15 Ubuntu在安装序列比对软件STAR时出现报错如何解决
    • ¥50 树莓派安卓APK系统签名
    • ¥65 汇编语言除法溢出问题