洛神赋520 2022-01-04 11:11 采纳率: 0%
浏览 137

pdfplumber提取PDF中的数据,由于一个表格中一行话分成了两行,导致第一行和右边的数据拼接到一起了

问题遇到的现象和发生背景

pdfplumber提取PDF中的数据,由于一个表格中一行话分成了两行,导致第一行和右边的数据拼接到一起了

问题相关代码
import pdfplumber

with pdfplumber.open('1.pdf') as p:
    page_count = len(p.pages)
    for i in range(0,page_count):
        page = p.pages[i]
        textdata = page.extract_text()
        print(textdata)
运行结果

img

PDF中实际的数据为

img

请求各位帮忙看看,怎么处理,多谢了

  • 写回答

1条回答 默认 最新

  • CSDN专家-HGJ 2022-01-04 17:45
    关注

    如果原pdf中是表格数据,使用extract_table()试试,参考:
    https://zhuanlan.zhihu.com/p/353397002

    评论

报告相同问题?

问题事件

  • 创建了问题 1月4日