paddleocr的ppstructurev3表格识别缺失

paddleocr的ppstructurev3进行表格识别。
识别的时候出现了某一页识别部分单元格缺失。
训练文本检测模型PP-OCRv5_server_det还是缺失，仅仅补齐了部分已经识别出来的单元格内容不完整的问题。
通过更换版面区域检测模型，解决了该pdf的这一页单元格识别缺失的问题，但是其他同类型的pdf的同格式的页码还是出现了单元格的缺失。我将全部的版面区域检测模型都使用了一遍，没有一个模型能够适合我全部的pdf文件，基本上一个pdf的那一页识别完整了但是其他pdf同类型表格页识别缺失。

这是识别缺失页的识别结果的json。
其中rec_texts中的内容为ocr识别的该页的全部内容，里面的内容没有缺失。
但是转化为html，就出现了缺失。
求解决

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-09-18 16:35
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

基于你的问题描述，表格识别部分单元格缺失是表格识别模型训练效果或数据预处理质量有关的问题，我们可以尝试以下几种解决方案：

调整文本检测模型PP-OCRv5_server_det的配置：检测到文本区域后，可以使用Post-Processing阶段的table_post_process进行表格结构的恢复和补全，可以尝试调整这一阶段的参数来提高恢复效果。

进行单元格区域重采样：可以对原始表格图像进行单元格区域重采样，这样可以提高文本区域的清晰度和识别率，从而提高表格识别的准确率。

增加数据集大小和复杂度：如果使用的数据集较小或者缺乏复杂表格样本，导致模型训练效果不佳，可以尝试增加数据集大小和复杂度来提高模型的表格识别能力。

尝试其他表格识别模型或工具：如果以上方案不能解决问题，可以尝试使用其他表格识别模型或工具来进行替代识别，这样可以避免单凭一款模型解决问题。

下面是核心部分Python代码示例：

import paddleocr from paddleocr import PaddleOCR # 构建表格识别模型 model = PaddleOCR(lang="chs",rec_image_shape=[3, 32, 100],use_gpu=True) # 对每张表格图片进行表格识别 tables = model.ocr(img_path=['table1.jpg','table2.jpg'])

**需要注意的是：**上述方案和代码仅供参考，并不保证解决您的具体问题。最终方案需具体依据您的需求和数据情况进行调整。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

表格识别ocr模型，基于paddleocr训练，可以识别中英文表格数据
2023-07-25 16:13

表格识别ocr模型，基于paddleocr训练，可以识别中英文表格数据
Windows系统下PaddleOCR表格识别工具PP-Structure打包exe离线运行版
2025-06-07 14:26

PP-Structure工具包为百度飞浆团队开发出的一款开源工具，用于表格OCR识别，原工具在python环境中使用，打包为exe文件的主要目的是将表格OCR识别功能移植到其他没有安装python的Windows系统下，非常适用于离线环境中...
基于paddleocr的表格识别
2025-01-20 10:34

仙尊方媛的博客现有的表格识别算法根据表格结构重建的原理可以分为下面四大类： 1. 基于启发式规则的方法 2. 基于CNN的方法 3. 基于GCN的方法 4. 基于End to End的方法实际上这里需要三个模型，文字检测，文字识别和表格结构识别...
C# winform paddleocr表格识别演示代码
2024-01-13 15:30

测试环境： vs2019 netframework4.7.2 opencvsharp4.8.0 博客地址： blog.csdn.net/FL1623863129/article/details/135570852 下载源码后选x64 debug即可运行，库都在对应文件夹
[paddleocr]ppstructure表格识别
2024-06-24 06:34

代码终究输给规则的博客 PP-Structure目前提供了中英文两种语言的表格识别模型，模型链接见。准备完成后使用如下命令进行评估，评估完成后会输出teds指标。下面以中文表格识别模型为例，介绍如何识别一张表格。文本识别模型的训练、评估和...
基于 PaddleOCR 技术实现车牌识别系统
2025-05-19 22:39

PaddleOCR是一个基于深度学习的开源OCR工具库，由百度公司推出，它支持多种语言的文字识别，尤其在中文字符的识别上表现优秀，因此被广泛应用于车牌识别领域。 PaddleOCR技术实现的车牌识别系统，其核心是对车牌...
Python PaddleOCR OCR结构化识别的例子
2024-02-07 11:31

1. 广泛适用性：PaddleOCR能够准确识别中文以及其他多种语言的文字，不仅适用于常规印刷体文本，还针对身份证、名片、发票、运单等特殊场景进行了优化，支持手写体识别。 2. 高性能模型：内置了多个预训练模型，包括...
paddlepaddle框架paddleocr下PPstructureV3测试图片和PDF
2026-03-12 13:21

PaddleOCR作为PaddlePaddle框架下的一个开源光学字符识别（OCR）工具库，其功能是对图像中的文字进行识别与提取，支持多种语言的文字识别，并提供了丰富的预训练模型。 PaddleOCR的核心是其具备端到端的文本检测、...
基于PaddleOCR的文字表格识别与解析方案
2022-09-04 10:50

pxzsky的博客自己使用的ocr解析，对于纯文本识别后，如何解析是个困难的问题。目前只做表格抽象，后续会不但添加支持其他模式，如：身份证等。
基于百度飞桨paddleocr的图像文字识别程序
2025-02-10 22:03

其中，paddleocr是百度推出的基于深度学习的文字识别引擎，图像文字识别是该项目的核心功能，python则是实现该功能的编程语言。开发者可以通过这三个标签获取相关的技术文档、教程和社区支持，以便于更好地理解和...
使用Trae基于 PaddleOCR 技术实现车牌识别系统
2025-05-19 22:41

PaddleOCR支持多种语言和场景的文字识别，具有较高的鲁棒性和准确性，这使得它成为实现车牌识别系统的理想选择。 Trae是一个在深度学习框架下，针对特定应用场景进行快速部署和优化的工具或平台。使用Trae基于...
基于paddleocr和opencv实现的表格识别 .zip
2025-11-08 23:27

其中，基于PaddleOCR和OpenCV技术的表格识别系统尤为引人注目。 PaddleOCR是由百度开源的一套OCR工具库，支持多种语言的文字识别，尤其擅长识别结构化文本。其对表格识别的优化算法能够有效识别表格中的文字，即便...
ocr-表格识别-pip安装包-table识别-表格提取-版面还原
2023-05-08 11:48

模型来源：PaddleOCR 表格识别具体来说，就是分析给定的表格图像，将表格还原为对应的html格式。目前支持两种类别的表格识别模型：中文和英文表格识别模型，具体可参见下面表格：模型类型模型名称模型大小 ...
使用paddleocr飞浆识别pdf表格以及文本
2025-09-24 16:16

FOAF-lambda的博客 1. 识别pdf上的表格。2. 识别pdf上的文本。
PaddleOCR PPStructureV3 在 Python 3.8 环境下的兼容性问题解析
2025-08-21 09:04

gitblog_01413的博客 PaddleOCR PPStructureV3 在 Python 3.8 环境下的兼容性问题解析【免费下载链接】PaddleOCR 飞桨多语言OCR工具包（实用超轻量OCR系统，支持80+种语言识别，提供数据标注与合成工具，支持服务器、移动端、...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月18日

paddleocr的ppstructurev3表格识别缺失

6条回答 默认 最新

问题事件

6条回答默认最新