paddleocr中用ppocrlabel划分数据集但找不到某张不存在的图片

最近做的项目是古籍ocr识别，然后在我下载了古籍训练集后对图片用
ppocrlabel进行处理，导出后在划分数据集就出现了图一这样的问题，一直报错不存在某张图片，而且每一次报错的图片都不一样。我也去找了确实没有那个名字的图片，但是crop_img与标签里的图片名字都是对的上的（如图二）。于是我换成其他数据集做试验，但并没有出现这种问题。实在不太懂怎么解决了。
还有在拿另一个数据集进行划分的时候，因为我在PaddleOCR文件夹下建立有train_data文件，在PaddleOCR 下的PPOCRLabel文件夹中也建立有train_data文件，（意思是有一个train_data文件与PPOCRLabel平行存在于PaddleOCR 下），我拿PPOCRLabel下的train_data文件进行划分后划分后的det与rec放到了 PaddleOCR下的train_data里，但是因为要进入cd PPOCRLabel才能进行数据集的划分，所以我用放在PaddleOCR下的train_data文件里的数据划分是不行的。我进入到PPOCRLabel下的gen_ocr_train_val_test.py 下直接更改default的路径进行运行也没法进行划分，都是说找不到文件。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
码农阿豪@新空间新星创作者: 前端开发技术领域 2024-08-06 10:31
关注
让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言
针对您提出的问题，我会按照以下格式进行回答：
报错问题：在划分数据集时一直报错不存在某张图片，且每次报错的图片不同。
可能原因：可能是在处理数据集过程中出现了文件命名、路径或数据匹配的问题。
解决方法：
检查数据集中的图片文件名是否与标签文件中所引用的图片文件名完全匹配，确保没有遗漏或错误。
检查数据集文件夹路径是否正确，确保代码能够正确读取到所有图片。
可以使用代码来检查每次报错的图片是否存在于数据集中，如下所示：

import os data_dir = 'path/to/dataset' with open('path/to/label_file.txt', 'r') as file: for line in file: img_name = line.split()[0] if not os.path.exists(os.path.join(data_dir, img_name)): print(f'Image {img_name} not found')

数据集路径问题：在PaddleOCR文件夹和PPOCRLabel文件夹下都存在train_data文件导致处理数据集时出现错误。
解决方法：建议统一管理数据集文件夹，避免文件重复或混乱导致无法正确读取。可以将train_data文件夹放在一个公共位置，然后在代码中指定路径统一读取。
修改脚本：进入到 PPOCRLabel 文件夹下的 gen_ocr_train_val_test.py 文件，找到对应的路径设置部分，将路径修改为统一的train_data路径。通过以上方法，希望您能解决古籍OCR识别项目中的问题。如果还有其他疑问或需要进一步帮助，请随时告诉我。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

mysql表存在却提示找不到表
2021-06-18 13:37

大脸猫小王的博客客户反馈业务功能无法使用，排查日志发现sql异常，提示表不存在，于是去数据库查看show table，表是存在的,但是select * from table；提示表不存在。引起这个问题的原因有多种，暂未确定具体原因（一般是数据备份或...
python找不到csv文件_pandas读取csv文件提示不存在的解决方法及原因分析
2020-11-23 15:28

weixin_39935903的博客一般情况是数据文件没有在当前路径，那么它是无法读取数据的。另外，如果路径名包含中文它也是无法读取的。（1）可以选择：import osos.getcwd()获得当前的工作路径，把你的数据文件放在此路径上就可以了，就可以...
联想服务器做完raid找不到硬盘,如何配置磁盘阵列(RAID)
2021-07-29 10:24

龗帅的博客删除RAID阵列方法：注意：删除某一现存硬盘阵列，将导致该阵列中所有硬盘的数据丢失 1、要删除某一阵列，先用上下键选中一个阵列，再按[Del]键删除；这时系统会出现以下的提示信息；按键以表确认，系统便进行...
idea运行程序报错程序包不存在，找不到符号解决方法
2019-02-28 18:08

无中生友的博客如果是这样引入的依赖项目解决办法：删除掉模块，用在项目中用idea的 alt+enter 提示进行依赖项目用这种提示依赖可行
C++ 应用软件开发从入门到实战详解
2024-06-21 13:33

dvlinker的博客此外，不同版本的Visual Studio，其对应的运行时库是不同的，发布软件包时需要将对应版本的C/C++运行时库带上（不带上这些运行时库，安装到不同机器上后，启动时可能会遇到报找不到运行时库的错误）。关于C/C++运行...
短期内快速掌握Python编程基础
2025-04-04 22:31

张彦峰ZYF的博客内容涵盖运行环境、基础语法、控制流、函数、字符串处理以及列表、字典、集合等常用数据结构，并结合可运行示例，帮助读者建立清晰、连贯的语言认知体系。文章不追求速成，而强调理解与动手实践，适合初学者入门，也...
机器学习中的数据集及其划分
2022-08-28 16:30

AI Player的博客机器学习中的数据集及其划分
大模型常用的预训练数据集
2024-05-03 11:04

三月七꧁ ꧂的博客该数据集针对不同需求，发布了多个子版本：en（英文数据，806G），en.noclean（未清洗的原始数据，6T），realnewslike（仅包含 Real News 涉及的领域的内容，36G），webtextlike（仅包含来自 Open WebText 中URLs 的...
matlab划分训练集验证和测试集代码_数据集划分为训练集和测试集并生成标签--matlab代码...
2021-01-27 07:55

Li小飞的博客最近做图像分类，数据集的整理真的好费时间，找到一个代码，非常好使，推荐给大家。实现的功能是，将一个文件夹下的每个子文件夹的...想了很多方法，但最后发现其实自己整理的数据，最合理的分配训练集和测试集的方...
Python中用ShuffleSplit对数据集进行划分
2019-02-18 16:48

Jonas_z的博客 Python中用ShuffleSplit来划分数据集 Python中用于交叉验证的方式很多，调包的话可以使用sklearn的model_selectionr 如果你想自己写代码来划分数据集，ShuffleSplit就派上用场了学习参考用，欢迎指正。函数用途 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月1日

paddleocr中用ppocrlabel划分数据集但找不到某张不存在的图片

1条回答 默认 最新

问题事件

1条回答默认最新