3barneverdie 2025-03-15 00:02 采纳率: 100%
浏览 12
已结题

我测试的paddleocr做表格识别,文本识别率已经足够准确了,还要不要训练?

我使用paddleocr做表格内容识别,ocr结果的识别准确率已经足够,能生成识别后的文字和坐标,我下一步的打算是根据坐标和识别出的表格标题,算出表格里我需要的内容然后保存。

但我看教程,用paddleocrlabel工具打标签,做训练,然后可以抽取指定位置的ocr文本识别结果,这样做除了能抽取指定位置的信息外,还有什么好处?

是能令文本准确率更高?还是能在表格有偏移或者少量倾斜时定位更准确?或者其他?

  • 写回答

5条回答 默认 最新

  • 码农阿豪@新空间 新星创作者: 前端开发技术领域 2025-03-15 00:47
    关注
    让阿豪来帮你解答,本回答参考chatgpt3.5编写提供,如果还有疑问可以评论或留言
    使用paddleocrlabel工具进行标注和训练,可以带来以下好处:
    1. 提高文本识别的准确率:通过训练模型来学习特定位置的文字特征,使得在提取指定位置信息时更加准确,可以避免误识别或漏识别的情况,提高整体的准确率。
    2. 改善表格定位的准确性:在处理有偏移或者少量倾斜的表格时,训练模型可以学会更好地定位和提取其中的内容,因此可以提升在复杂情况下的表格内容识别效果。
    3. 加快处理速度:通过训练好的模型,可以直接进行指定位置信息的提取,避免了需要逐一检查和调整的过程,节省了处理时间和人力成本。 案例: 假设我们需要从一张图片中提取表格中的姓名和电话号码,通过训练好的模型可以直接定位到姓名和电话号码所在的位置,并精准提取出对应的内容,避免了手动查找和录入的繁琐过程。 代码片段(假设使用Python):
    # 加载训练好的模型
    import paddleocrlabel
    model = paddleocrlabel.load_model('trained_model.pth')
    # 识别表格图片
    image = 'table_image.jpg'
    results = model.extract_info(image)
    # 进行指定位置信息的提取
    table_content = {}
    for box, text in results.items():
        if is_name_box(box):
            table_content['姓名'] = text
        elif is_phone_box(box):
            table_content['电话号码'] = text
    # 保存提取的内容
    save_table_content(table_content)
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(4条)

报告相同问题?

问题事件

  • 系统已结题 3月26日
  • 已采纳回答 3月18日
  • 创建了问题 3月15日