莫向光明惰寸功 2020-03-03 15:18 采纳率: 0%
浏览 884

图片文字识别方案--如何实现自动训练提高识别准确率?

各位大佬好。我最近在学习图片识别文字技术的应用。
选择了google的Tesseract-ocr。
目前学习到的训练方法是,使用jTessBoxEditor人工的调整未准确识别的文字。(测试的身份证)
这种效率太慢了。
我的训练过程从图片tif到最后的traineddata字库都可以自动完成,但是训练中需使用工具调整未准确识别字的过程不能自动完成,我也找不到解决办法。
我也尝试了不调整未正确识别的图片,几十份身份证样例只训练不调整。但是生成的字库识别率没什么变化。难道是量不够?感觉不是行得通。能调整的话事半功倍吧,但是自动化才是可行的路。
所以想请教各位神仙,指点思路。现在很多文字识别软件,人家是怎么练出来的!

  • 写回答

2条回答 默认 最新

  • threenewbee 2020-03-03 17:43
    关注

    人家是找了很多农村妇女做数据标记用大量的样本训练出来的。你样本太少,人工太少,投入的资金太少,自然不行
    https://www.sohu.com/a/280497794_100271081

    评论

报告相同问题?

悬赏问题

  • ¥15 (希望可以解决问题)ma和mb文件无法正常打开,打开后是空白,但是有正常内存占用,但可以在打开Maya应用程序后打开场景ma和mb格式。
  • ¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
  • ¥20 腾讯企业邮箱邮件可以恢复么
  • ¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗?
  • ¥15 错误 LNK2001 无法解析的外部符号
  • ¥50 安装pyaudiokits失败
  • ¥15 计组这些题应该咋做呀
  • ¥60 更换迈创SOL6M4AE卡的时候,驱动要重新装才能使用,怎么解决?
  • ¥15 让node服务器有自动加载文件的功能
  • ¥15 jmeter脚本回放有的是对的有的是错的