如题使用python提取PDF里面的表格,使用pdfplumber提取,使用extract_text()可以提取表格里的内容,但使用extract_table提取,却提取不到内容,print空none
文件是https://pdf.dfcfw.com/pdf/H2_AN202104151485341072_1.pdf?1618513393000.pdf
各位可以下载试试,注意:从第8页开始有大量的表格数据。只能提取大小2K的不需要的第3页数据。
如题使用python提取PDF里面的表格,使用pdfplumber提取,使用extract_text()可以提取表格里的内容,但使用extract_table提取,却提取不到内容,print空none
文件是https://pdf.dfcfw.com/pdf/H2_AN202104151485341072_1.pdf?1618513393000.pdf
各位可以下载试试,注意:从第8页开始有大量的表格数据。只能提取大小2K的不需要的第3页数据。
pdfplumber提取文本和表格,最适合机器生成的 PDF,而不是扫描的 PDF。参考https://zhuanlan.zhihu.com/p/353397002,https://github.com/jsvine/pdfplumber