Tesseract5 LSTM訓練,產生.lstmf內容為亂碼

.box檔案與.gt.txt檔案都已準備好
在生成.lstmf檔案指令:
tesseract testnum.normal.exp2.tif testnum.normal.exp2 -l chi_tra --psm 6 lstm.train

內容為亂碼,導致下一個步驟,做訓練時,無法進行

請問有前輩遇過此狀況嗎?要如何解??

感謝各位幫忙!在此感激不盡!

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
道友老李 JWE233286一种基于机器视觉的水表指针读数识别及修正的方法专利发明者 2025-03-24 16:38
关注
让【道友老李】来帮你解答，本回答参考gpt编写，并整理提供，如果还有疑问可以点击头像关注私信或评论。
如果答案让您满意，请采纳、关注，非常感谢！
根据你提供的信息，可能是因为训练数据中包含了乱码字符，导致无法正确进行训练。为了解决这个问题，你可以进行以下操作：
检查训练数据：确保训练数据中的所有字符都属于训练集（比如中文字符集），并且没有乱码字符。
如果确认训练数据中存在乱码字符，可以尝试重新生成训练数据，确保数据的准确性。
优化训练参数：尝试修改训练参数，比如增加训练次数、调整学习率等，以提高训练的效果。
如果仍然无法解决问题，可以尝试查看Tesseract的官方文档或寻求相关技术支持，获取更专业的帮助。如果你需要实现代码来帮助解决问题，可以尝试以下Python代码段：

import pytesseract from PIL import Image # 读取图像文件 img = Image.open('testnum.normal.exp2.tif') # 使用Tesseract进行识别 text = pytesseract.image_to_string(img, lang='chi_tra', config='--psm 6') # 输出识别结果 print(text)

希望以上信息对你有所帮助，祝顺利解决问题！
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Tesseract_v5.0_+Mnist数据集_LSTM训练_digit_mnist_ocr.zip
2024-09-16 00:24

最后，该项目不仅为开发者提供了利用Tesseract和LSTM进行文字识别的实例，还可能为研究者和工程师在进行图像处理和模式识别工作时提供宝贵的参考。随着深度学习技术的不断进步，结合Tesseract和LSTM的OCR系统有望...
Tesseract 5 LSTM训练准备工作之字库分类（源文件）
2022-06-27 17:17

5. 运行训练：使用`tesseract`命令行工具启动LSTM训练。在完成以上步骤后，LSTM模型会逐步学习到不同字体的特征，并在训练过程中不断优化其识别能力。训练完成后，新的LSTM模型可以被集成到Tesseract OCR中，提高...
Tesseract5.4.0自定义LSTM训练
2025-01-04 11:17

兵工厂三剑客的博客 –continue_from 训练从哪里继续，这里指定从上面提取的 eng.lstm文件，–debug_interval 当值为-1时，训练结束，会显示训练的一些结果参数。同时，将eng.traineddata文件复制一份到图片目录下，如下所示。
tesseract-4.1.1.tar.gz和leptonica-1.79.0.tar.gz
2023-10-12 11:16

Tesseract 4.1.1引入了深度学习模型（LSTM），显著提高了识别精度，尤其是在复杂背景和手写文字识别方面。 Leptonica是Tesseract的基石，它提供了丰富的图像操作函数，如读取、写入、转换、显示、旋转、裁剪、颜色...
Tesseract 5 LSTM训练准备工作之字库分类（批处理）
2022-06-16 12:09

netsee1的博客 tesseract 训练文字，的辅助工具
tesseract.js-master.zip
2022-06-29 13:54

5. **实时视频流处理**：除了静态图像，Tesseract.js还支持处理来自摄像头的实时视频流，可以应用于实时文字识别的场景，如无障碍阅读辅助或智能安全监控。 6. **分块处理与并发识别**：对于大图或包含多个文字区域...
tesseract-5.2.0.tar.gz
2023-06-30 09:22

总的来说，Tesseract-5.2.0 结合 tess4j 在 JAVA 环境下为开发者提供了一套强大且灵活的图像识别解决方案。通过熟练掌握其使用方法和优化技巧，开发者可以轻松地将 OCR 功能融入到各种应用场景中，进一步提升工作...
Tesseract-OCR-5.5.0.20241111 + tessdata全部语言包
2025-03-06 09:19

随着人工智能和机器学习技术的不断进步，Tesseract-OCR也在不断地更新和升级，以适应日益增长的OCR需求。5.5.0.20241111版本的发布，标志着Tesseract-OCR在多语言支持和识别准确性方面又迈上了一个新的台阶。通过...
tesseract-ocr5 lstm 训练过程
2021-04-01 15:09

胖肉团的博客 1. 安装tesseract-ocr5 https://digi.bib.uni-mannheim.de/tesseract/ 2. 使用jTessBoxEditor 生成tif文件 3. 生成box文件 tesseract nml.num.exp0.tif nml.num.exp0 -l eng --psm 6 batch.nochop makebox ...
tesstrain:使用make训练Tesseract LSTM
2021-05-03 05:59

可以在找到和更多内容。另外，您可以在此项目中构建leptonica和tesseract并将其安装到./usr中的./usr子目录中： make leptonica tesseract Tesseract将从git存储库构建，该存储库需要CMake，自动工具（包括...
Tesseract-OCR的训练.zip
2021-04-29 15:03

本资料“Tesseract-OCR的训练.zip”聚焦于如何训练Tesseract OCR以提高其对特定字体、语言或样式文字的识别准确率。一、Tesseract OCR简介 Tesseract OCR最初由HP开发，后来成为开源项目，现由谷歌负责维护。它...
Tesseract.js LSTM引擎详解：现代OCR识别技术核心
2025-09-13 02:05

沈韬淼Beryl的博客你是否还在为传统OCR（Optical Character Recognition，光学字符识别）技术的低准确率、高误识率而困扰？在数字化转型加速的今天，从扫描文档处理到实时字幕生成，从车牌识别到古籍数字化，OCR技术作为信息提取的...
Tesseract-OCR5.0 Lstm 训练
2021-12-02 16:59

czq834850410的博客这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、...
[tesseract]Deserialize header failed: FIRC.lstmf
2025-01-07 08:13

FL1623863129的博客因此最终选择psm为13解决上面了报错。tesseract5.0训练时候会提示。
从头开始训练自己的 Tesseract 5 LSTM 识别库（超详细）
2022-04-11 17:09

watt的博客从头开始训练自己的 Tesseract 5 LSTM中文识别库，过程超详细，按这个步骤都可以训练自己的专有库提高识别精度。
中文识别经过训练的Tesseract的chi_sim.traineddata中文包
2019-03-15 16:04

"chi_sim.traineddata"是这些工作的结果，内含了对简体中文字符的形状、结构以及上下文关系的理解，使得Tesseract在遇到新的简体中文图像时，能够通过匹配已训练的模型来准确识别出文本内容。在实际应用中，用户...
Tesseract-OCR 5.0LSTM训练
2024-06-20 18:27

FL1623863129的博客下载所需语言的.traineddataw文件,放入同级文件夹,此为chi_sim语言（第一次用tesseract\tessdata目录下的chi_sim.traineddata报错了,找了很多博客建议去。语法: tesseract [tif文件名] [生成文件名(一般情况与tif...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月24日

Tesseract5 LSTM訓練,產生.lstmf內容為亂碼

3条回答 默认 最新

问题事件

3条回答默认最新