向奈儿 2020-10-29 15:20 采纳率: 0%
浏览 1040
已结题

【Python】针对pdf中不规则表格的数据提取

查找了相关资料,目前python中对pdf表格的抽取主要采用的是pdfplumber、camelot、tabula等,但都是针对完整且相对规范的表格。但对形如下图所示的表格的数据提取,出现了文本表格混排,跨页面表格的衔接等问题,请求大佬指点!

图片说明
图片说明

  • 写回答

1条回答 默认 最新

  • qq_21804627 2020-12-21 18:17
    关注

    同问,还有那种表格分别只在页面一边的情况(页面排版是左右两边分开分布),这种有时候读文本内容都困难。。。

    评论

报告相同问题?

悬赏问题

  • ¥15 NAO机器人的录音程序保存问题
  • ¥15 C#读写EXCEL文件,不同编译
  • ¥15 如何提取csv文件中需要的列,将其整合为一篇完整文档,并进行jieba分词(语言-python)
  • ¥15 MapReduce结果输出到HBase,一直连接不上MySQL
  • ¥15 扩散模型sd.webui使用时报错“Nonetype”
  • ¥15 stm32流水灯+呼吸灯+外部中断按键
  • ¥15 将二维数组,按照假设的规定,如0/1/0 == "4",把对应列位置写成一个字符并打印输出该字符
  • ¥15 NX MCD仿真与博途通讯不了啥情况
  • ¥15 win11家庭中文版安装docker遇到Hyper-V启用失败解决办法整理
  • ¥15 gradio的web端页面格式不对的问题