絮∀雨 2025-09-18 16:35 采纳率: 0%
浏览 59

paddleocr的ppstructurev3表格识别缺失

paddleocr的ppstructurev3进行表格识别。
识别的时候出现了某一页识别部分单元格缺失。
训练文本检测模型PP-OCRv5_server_det还是缺失,仅仅补齐了部分已经识别出来的单元格内容不完整的问题。
通过更换版面区域检测模型,解决了该pdf的这一页单元格识别缺失的问题,但是其他同类型的pdf的同格式的页码还是出现了单元格的缺失。我将全部的版面区域检测模型都使用了一遍,没有一个模型能够适合我全部的pdf文件,基本上一个pdf的那一页识别完整了但是其他pdf同类型表格页识别缺失。

img


这是识别缺失页的识别结果的json。
其中rec_texts中的内容为ocr识别的该页的全部内容,里面的内容没有缺失。
但是转化为html,就出现了缺失。
求解决

  • 写回答

6条回答 默认 最新

  • 阿里嘎多学长 2025-09-18 16:35
    关注

    阿里嘎多学长整理AIGC生成,因移动端显示问题导致当前答案未能完全显示,请使用PC端查看更加详细的解答过程

    基于你的问题描述,表格识别部分单元格缺失是表格识别模型训练效果或数据预处理质量有关的问题,我们可以尝试以下几种解决方案:

    1. 调整文本检测模型PP-OCRv5_server_det的配置: 检测到文本区域后,可以使用Post-Processing阶段的table_post_process进行表格结构的恢复和补全,可以尝试调整这一阶段的参数来提高恢复效果。

    2. 进行单元格区域重采样: 可以对原始表格图像进行单元格区域重采样,这样可以提高文本区域的清晰度和识别率,从而提高表格识别的准确率。

    3. 增加数据集大小和复杂度: 如果使用的数据集较小或者缺乏复杂表格样本,导致模型训练效果不佳,可以尝试增加数据集大小和复杂度来提高模型的表格识别能力。

    4. 尝试其他表格识别模型或工具: 如果以上方案不能解决问题,可以尝试使用其他表格识别模型或工具来进行替代识别,这样可以避免单凭一款模型解决问题。

    下面是核心部分Python代码示例:

    import paddleocr
    from paddleocr import PaddleOCR
    
    # 构建表格识别模型
    model = PaddleOCR(lang="chs",rec_image_shape=[3, 32, 100],use_gpu=True)
    
    # 对每张表格图片进行表格识别
    tables = model.ocr(img_path=['table1.jpg','table2.jpg'])
    

    **需要注意的是:**上述方案和代码仅供参考,并不保证解决您的具体问题。最终方案需具体依据您的需求和数据情况进行调整。

    评论

报告相同问题?

问题事件

  • 创建了问题 9月18日