Cauchy不会收敛 2024-08-01 17:13 采纳率: 0%
浏览 46

paddleocr中用ppocrlabel划分数据集但找不到某张不存在的图片

最近做的项目是古籍ocr识别,然后在我下载了古籍训练集后对图片用
ppocrlabel进行处理,导出后在划分数据集就出现了图一这样的问题,一直报错不存在某张图片,而且每一次报错的图片都不一样。我也去找了确实没有那个名字的图片,但是crop_img与标签里的图片名字都是对的上的(如图二)。于是我换成其他数据集做试验,但并没有出现这种问题。实在不太懂怎么解决了。
还有在拿另一个数据集进行划分的时候,因为我在PaddleOCR文件夹下建立有train_data文件,在PaddleOCR 下的PPOCRLabel文件夹中也建立有train_data文件,(意思是有一个train_data文件与PPOCRLabel平行存在于PaddleOCR 下),我拿PPOCRLabel下的train_data文件进行划分后划分后的det与rec放到了 PaddleOCR下的train_data里,但是因为要进入cd PPOCRLabel才能进行数据集的划分,所以我用放在PaddleOCR下的train_data文件里的数据划分是不行的。我进入到PPOCRLabel下的gen_ocr_train_val_test.py 下直接更改default的路径进行运行也没法进行划分,都是说找不到文件。

img

img

  • 写回答

1条回答 默认 最新

  • 码农阿豪@新空间 新星创作者: 前端开发技术领域 2024-08-06 10:31
    关注
    让阿豪来帮你解答,本回答参考chatgpt3.5编写提供,如果还有疑问可以评论或留言
    针对您提出的问题,我会按照以下格式进行回答:
    1. 报错问题:在划分数据集时一直报错不存在某张图片,且每次报错的图片不同。
      • 可能原因:可能是在处理数据集过程中出现了文件命名、路径或数据匹配的问题。
      • 解决方法:
        • 检查数据集中的图片文件名是否与标签文件中所引用的图片文件名完全匹配,确保没有遗漏或错误。
        • 检查数据集文件夹路径是否正确,确保代码能够正确读取到所有图片。
        • 可以使用代码来检查每次报错的图片是否存在于数据集中,如下所示:
        import os
        data_dir = 'path/to/dataset'
        with open('path/to/label_file.txt', 'r') as file:
         for line in file:
             img_name = line.split()[0]
             if not os.path.exists(os.path.join(data_dir, img_name)):
                 print(f'Image {img_name} not found')
        
    2. 数据集路径问题:在PaddleOCR文件夹和PPOCRLabel文件夹下都存在train_data文件导致处理数据集时出现错误。
      • 解决方法:建议统一管理数据集文件夹,避免文件重复或混乱导致无法正确读取。可以将train_data文件夹放在一个公共位置,然后在代码中指定路径统一读取。
      • 修改脚本:进入到 PPOCRLabel 文件夹下的 gen_ocr_train_val_test.py 文件,找到对应的路径设置部分,将路径修改为统一的train_data路径。 通过以上方法,希望您能解决古籍OCR识别项目中的问题。如果还有其他疑问或需要进一步帮助,请随时告诉我。
    评论

报告相同问题?

问题事件

  • 创建了问题 8月1日