我使用paddleocr做表格内容识别,ocr结果的识别准确率已经足够,能生成识别后的文字和坐标,我下一步的打算是根据坐标和识别出的表格标题,算出表格里我需要的内容然后保存。
但我看教程,用paddleocrlabel工具打标签,做训练,然后可以抽取指定位置的ocr文本识别结果,这样做除了能抽取指定位置的信息外,还有什么好处?
是能令文本准确率更高?还是能在表格有偏移或者少量倾斜时定位更准确?或者其他?
我使用paddleocr做表格内容识别,ocr结果的识别准确率已经足够,能生成识别后的文字和坐标,我下一步的打算是根据坐标和识别出的表格标题,算出表格里我需要的内容然后保存。
但我看教程,用paddleocrlabel工具打标签,做训练,然后可以抽取指定位置的ocr文本识别结果,这样做除了能抽取指定位置的信息外,还有什么好处?
是能令文本准确率更高?还是能在表格有偏移或者少量倾斜时定位更准确?或者其他?
关注让阿豪来帮你解答,本回答参考chatgpt3.5编写提供,如果还有疑问可以评论或留言使用paddleocrlabel工具进行标注和训练,可以带来以下好处:
# 加载训练好的模型
import paddleocrlabel
model = paddleocrlabel.load_model('trained_model.pth')
# 识别表格图片
image = 'table_image.jpg'
results = model.extract_info(image)
# 进行指定位置信息的提取
table_content = {}
for box, text in results.items():
if is_name_box(box):
table_content['姓名'] = text
elif is_phone_box(box):
table_content['电话号码'] = text
# 保存提取的内容
save_table_content(table_content)