【python】【文字识别】百度文档识别返回的结果，整理为dataframe表格

一、背景
pdf文档中有一个表格（请见附一），已获得百度文档识别返回的结果（请见附二，节选红框所示的三行）。

二、目标
将返回的结果整理成python_dataframe表格

三、请帮助
如何使用python实现？谢谢

附一：原始表格

附二：初步识别代码（json）

a = [
    {
        "words_location": {"top": 382, "left": 124, "width": 52, "height": 12},
        "word": "豪华客房",
    },
    {
        "words_location": {"top": 383, "left": 280, "width": 59, "height": 11},
        "word": "14501530",
    },
    {
        "words_location": {"top": 383, "left": 425, "width": 23, "height": 10},
        "word": "450",
    },
    {
        "words_location": {"top": 383, "left": 553, "width": 28, "height": 11},
        "word": "510",
    },
    {
        "words_location": {"top": 383, "left": 689, "width": 25, "height": 10},
        "word": "NA ",
    },
    {
        "words_location": {"top": 412, "left": 113, "width": 76, "height": 13},
        "word": "高级豪华客房",
    },
    {
        "words_location": {"top": 414, "left": 277, "width": 61, "height": 11},
        "word": "5001580",
    },
    {
        "words_location": {"top": 413, "left": 424, "width": 23, "height": 11},
        "word": "500",
    },
    {
        "words_location": {"top": 413, "left": 554, "width": 26, "height": 11},
        "word": "560",
    },
    {
        "words_location": {"top": 413, "left": 690, "width": 22, "height": 10},
        "word": "NA ",
    },
    {
        "words_location": {"top": 442, "left": 111, "width": 76, "height": 12},
        "word": "行攻豪华客房",
    },
    {
        "words_location": {"top": 444, "left": 278, "width": 60, "height": 12},
        "word": "1700/1700",
    },
    {
        "words_location": {"top": 444, "left": 424, "width": 25, "height": 10},
        "word": "600",
    },
    {
        "words_location": {"top": 444, "left": 554, "width": 27, "height": 10},
        "word": "600",
    },
    {
        "words_location": {"top": 444, "left": 689, "width": 22, "height": 10},
        "word": "NA ",
    },
]

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

此人真菜 2021-09-30 15:55

关注


import pprint
import pandas as pd
df=pd.DataFrame(columns=['B','C','D','E'])
dic = [
    {
        "words_location": {"top": 382, "left": 124, "width": 52, "height": 12},
        "word": "豪华客房",
    },
    {
        "words_location": {"top": 383, "left": 280, "width": 59, "height": 11},
        "word": "14501530",
    },
    {
        "words_location": {"top": 383, "left": 425, "width": 23, "height": 10},
        "word": "450",
    },
    {
        "words_location": {"top": 383, "left": 553, "width": 28, "height": 11},
        "word": "510",
    },
    {
        "words_location": {"top": 383, "left": 689, "width": 25, "height": 10},
        "word": "NA ",
    },
    {
        "words_location": {"top": 412, "left": 113, "width": 76, "height": 13},
        "word": "高级豪华客房",
    },
    {
        "words_location": {"top": 414, "left": 277, "width": 61, "height": 11},
        "word": "5001580",
    },
    {
        "words_location": {"top": 413, "left": 424, "width": 23, "height": 11},
        "word": "500",
    },
    {
        "words_location": {"top": 413, "left": 554, "width": 26, "height": 11},
        "word": "560",
    },
    {
        "words_location": {"top": 413, "left": 690, "width": 22, "height": 10},
        "word": "NA ",
    },
    {
        "words_location": {"top": 442, "left": 111, "width": 76, "height": 12},
        "word": "行攻豪华客房",
    },
    {
        "words_location": {"top": 444, "left": 278, "width": 60, "height": 12},
        "word": "1700/1700",
    },
    {
        "words_location": {"top": 444, "left": 424, "width": 25, "height": 10},
        "word": "600",
    },
    {
        "words_location": {"top": 444, "left": 554, "width": 27, "height": 10},
        "word": "600",
    },
    {
        "words_location": {"top": 444, "left": 689, "width": 22, "height": 10},
        "word": "NA ",
    },

]
k=0
for i in range(len(dic)//5):
    a=dic[5*k+0]["word"]
    b=dic[5*k+1]['word']
    c=dic[5*k+2]['word']
    d=dic[5*k+3]['word']
    e = dic[5 * k +4]['word']
    df.loc[a]=[b,c,d,e]
    k+=1
pprint.pprint(df)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

【python】【文字识别】百度文档识别返回的结果，整理为dataframe表格 python 图像处理
2021-09-30 14:41

回答 3 已采纳 import pprint import pandas as pd df=pd.DataFrame(columns=['B','C','D','E']) dic = [ {
关于python调用百度api接口识别身份证信息 python 有问必答百度云
2022-01-22 22:27

回答 7 已采纳你题目的解答代码如下： import pandas as pd res={ "log_id": 2648325511, "direction": 0, "image_stat
python如何将for循环结果里的dataframe提取出来放进一个excel中 python
2022-03-08 16:04

回答 3 已采纳如果要写入原文件，那要先记录对应的单元格位置到一个列表中，进行分析后再用openpyxl 或者xlwt 库写入excel ，如果是不用写入原文件，那把过程数据添加到一个df 中，最后用to_e
数据治理 | 还在人工识别表格呢？Python 调用百度 OCR API 又快又准
2023-10-14 11:09

程序员晓晓的博客往期的实用技能分享中我们介绍过如何OCR识别图片中的文本，也介绍过如何使用 Python 读取（可以复制内容的）PDF 中的表格，将其转为 Excel 表。此时细心的小伙伴会发现一个盲区：我们怎么把不可复制内容的PDF（或...
python dataframe既有文字又有数字，所有数字列都/100. python 开发语言
2021-01-19 18:33

回答 2 已采纳 import pandas as pd import numpy d={ 'name':['a','n','c','d','e','f'], # 'Gender':['male','
Python 在处理DataFrame的时候，如何删除数据为0的列 python
2022-03-24 18:04

回答 1 已采纳 (df.T[(df!=0).all()]).T 删除数据全为0的列，望采纳
如何用Python快速读取MongoDB数据为DataFrame格式 mongodb python
2021-08-23 16:00

回答 1 已采纳你直接查询了MongoDB表的所有数据肯定慢。你可以将MongoDB的数据先查询保存为10-50万记录一个csv文件，再用pandas去加载这些csv，加载过程就会很快。
python识别图片中的文字、数值并转文档
2021-11-20 22:29

阿黎逸阳的博客应用python把图片中的文字和数值识别出来，存储成相应的文档。
python dataframe 相似的筛选语句结果不同 python
2021-04-22 17:07

回答 2 已采纳 Severity列是字符串类型，IR Status列却未必是。建议题主像下面的代码一样查看一下df.dtypes，确定IR Status列的类型。 >>> import pand
python怎么把循环得到的列表写入dataframe python
2022-04-20 10:21

回答 3 已采纳 data_origin['q']赋值语句后面不要用单引号
python DataFrame 调用corr时运行结果为“--” python 其他有问必答
2021-04-21 20:44

回答 5 已采纳参考：https://blog.csdn.net/zx1245773445/article/details/82710117
python调用腾讯云接口，实现财务发票混贴模式下，批量识别并转存excel表格的功能
2023-07-06 13:50

糕糕钙的博客【代码】python调用腾讯云接口，实现财务发票混贴模式下，批量识别并转存excel表格的功能。
python DataFrame python
2022-05-04 00:21

回答 2 已采纳估计问题出在这了，判断不等于0所用的对象可以看到两种访问方式所得到的结果是不同的我尝试判断0是否可以和它们比较结果报错：类型“方法”的参数不可迭代接下来尝试另一个可以进行比较答案呼之欲出了，虽然我用i
Python 调用腾讯云接口批量识别图片中指定位置的信息，并保存到excel
2021-11-11 20:36

卖山楂啦prss的博客在python中，支持ORC的模块有pytesser3和pyocr，其原理主要是通过模块功能调用OCR引擎识别图片，OCR引擎再将识别的结果返回到程序中， PyOCR是一个用于python的光学字符识别（OCR）工具包装器 pip install -i ...
调用Python和OCR进行PDF文档解析（附源码）
2023-03-20 12:10

欣一2002的博客而文档图像分析(Document Image Analysis)是指从文档的图像的像素数据中获取信息的技术，在某些情况下，预期结果应该是什么样的没有明确的答案(文本、图像、图表、数字、表格、公式……)。OCR (Optical Character ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月30日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月30日

悬赏问题

¥15 stm32开发clion时遇到的编译问题
¥15 lna设计源简并电感型共源放大器
¥15 如何用Labview在myRIO上做LCD显示？(语言-开发语言)
¥15 Vue3地图和异步函数使用
¥15 C++ yoloV5改写遇到的问题
¥20 win11修改中文用户名路径
¥15 win2012磁盘空间不足,c盘正常，d盘无法写入
¥15 用土力学知识进行土坡稳定性分析与挡土墙设计
¥70 PlayWright在Java上连接CDP关联本地Chrome启动失败,貌似是Windows端口转发问题
¥15 帮我写一个c++工程

【python】【文字识别】百度文档识别返回的结果，整理为dataframe表格

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新