谷歌开源OCR Tesseract 3.0，能不能设置只识别手动训练过的样本，其他的返回空

最近基于谷歌开源库Tesseract 3.3 做了一个图像识别项目；
发现了以下几个问题
1.字体较多时合成训练样本生成模板后会出现字体冲突（我瞎猜的），具体表现是：
当某一个字体样本与另外一个字体混合训练时会导致另外一个字体的训练无效化（也不是所有的字体混合都会，某些字体混合又可以，目前没发现其规律），分开训练识别又没问题

2.当识别某些没有经过训练的字体时，Tesseract大概率随机匹配一个值（0~9 ）由于
识别内容为纯数字且比较简单（类似于123456然后识别成123457），出现识别错了但任然能找到其他数据，导致匹配异常，问题1最终结果也有大概率随机匹配一个值

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

Tesseract-ocr 库无法识别图片 python 有问必答
2021-06-17 17:20

回答 2 已采纳图片放哪里都行，你路径没写对或者引入路径的格式写错了
tesseract-OCR如何通过vba语言获取识别字符串，而不通过生成txt文件的方式 python 有问必答
2021-05-02 21:32

回答 5 已采纳孙老师，这样的方法我理解，但是会出现exe运行边框，很难去除。那如何实现无边框运行，我试过采用输入一段代码，但还是有边框闪烁。
验证码识别，验证码训练tesseract、tesseract-ocr c# java python
2020-05-06 18:06

回答 1 已采纳看看是不是红框第一行这个文件没有找到，或者没有权限读取，或者文件损坏
OCR开源库Tesseract汉字识别训练
2017-07-06 17:38

iChenwin的博客先用英文做个示例： 1. 拿到一张chi.pingfang.exp0.jpg： ...3. 拿到chi.pingfang.exp0.tif之后，开始训练。第一步，生成box文件。//由tif图片生成box文件 tesseract chi.pingfang.exp0.tif ch......
TesseractOCR3.04.00中文识别提示未找到参数allow_blob_division
2015-10-30 03:10

回答 1 已采纳先要编译出设置.combine_tessdata -e tessdata/chi_sim.traineddata chi_sim.config
Tesseract OCR - tess4j tessdata目录设置问题
2015-11-19 21:06

回答 3 已采纳自己解决了,虽然绕了一步,提供出来参考 instance.setDatapath("youdir"); 看官网教程没这步,是哪里设置不对,有知道的说一下
OCR文字识别可以脱离Tesseract-OCR环境使用吗？ python
2022-07-19 23:00

回答 2 已采纳不能，Tesseract是他的框架
Tesseract-OCR 安装、中文识别与训练字库
2022-08-08 22:48

Mikite的博客安装目录【注意】tesseract在win7系统配置环境变量跟java jdk配置相同。环境配置添加路径【注意】与其他路径要以；隔离出来。配置成功例如我的图片识别就是：错误1 错误1增加一个TESSDATA_PREFIX变量名，变量值为...
apache Tika 图片识别tesseract-OCR改成tess4j.jar调用方式，求思路 intellij-idea jar java java-ee spring
2019-04-22 16:33

回答 1 已采纳参考tika-2293需求，已解决
MODI的OCR模块（office）怎么像Tesseract-OCR 那样更换训练好的字库呢，应该换那个文件？ c++ c语言开发语言
2019-02-20 20:52

回答 1 已采纳 MODI的OCR模块没法训练，实际上微软都没有办法训练，买的是清华紫光的代码，微软只是贴牌。
Tesseract这么清晰的图片都识别不了吗？ python 图像处理有问必答
2021-12-14 15:44

回答 2 已采纳添加 config='--psm 6'参数试试。pytesseract psm 选项参数设置可参考：https://blog.csdn.net/qq_26877377/article/details/
tesseract-ocr实现图片识别功能（java）
2017-11-18 13:33

一个Google支持的开源的OCR图文识别开源项目。去持多语言(当前3.02 版本支持包括英文,简体中文,繁体中文),支持Windows,Linux,Mac OSX 多平台。使用中Tesseract 的识别率非常高。可以参考网上的相关资料进行对...
如何在WAMP服务器上安装Tesseract OCR，由PHP运行？ php
2013-06-05 05:57

回答 1 已采纳 what do you mean by "successfully installed Tesseract" ? how did you verify that? can you run tess
超级详细的Tesseract-OCR样本训练方法
2018-11-05 16:38

刘千予的博客 Tesseract-OCR样本训练方法一、简介 Tesseract是一个开源的OCR（Optical Character Recognition，光学字符识别）引擎，可以识别多种格式的图像文件并将其转换成文本，目前已支持60多种语言（包括中文）。 ...
Tesseract-OCR识别中文与训练字库实例
2021-02-20 15:08

香煎三文鱼的博客关于中文的识别，效果比较好而且开源的应该就是Tesseract-OCR了，所以自己亲身试用一下，分享到博客让有同样兴趣的人少走弯路。文中所用到的身份证图片资源是百度找的，如有侵权可联系我删除。一、准备工作 1...
Tesseract-OCR样本训练方法
2022-09-30 14:05

~明若~的博客 Tesseract-OCR样本训练方法
python ocr中文训练_Tesseract-OCR识别中文与训练字库实例
2020-12-09 02:06

weixin_39886929的博客关于中文的识别，效果比较好而且开源的应该就是Tesseract-OCR了，所以自己亲身试用一下，分享到博客让有同样兴趣的人少走弯路。文中所用到的身份证图片资源是百度找的，如有侵权可联系我删除。一、准备工作1、下载...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 2月14日

悬赏问题

¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
¥15 （希望可以解决问题）ma和mb文件无法正常打开，打开后是空白，但是有正常内存占用，但可以在打开Maya应用程序后打开场景ma和mb格式。
¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
¥20 腾讯企业邮箱邮件可以恢复么
¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗？
¥15 错误 LNK2001 无法解析的外部符号
¥50 安装pyaudiokits失败
¥15 计组这些题应该咋做呀
¥60 更换迈创SOL6M4AE卡的时候，驱动要重新装才能使用，怎么解决？
¥15 让node服务器有自动加载文件的功能

谷歌开源OCR Tesseract 3.0，能不能设置只识别手动训练过的样本，其他的返回空

0条回答 默认 最新

问题事件

悬赏问题

0条回答默认最新