怎么用python从PDF中提取表格呀

以前没接触过python，昨儿才把软件（python3.10和pycharm2022）装好。想试试用python提取PDF文件中的表格，我用的PDF是可以复制的那种不是扫描的，第四页开始有表格。在网上找了好多相关的经验贴，觉着合适的我都试着做了，然鹅跑了一天bug哭唧唧

这个是用camelot的代码

import camelot # 从PDF文件中提取表格
tables = camelot.read_pdf('C:\Users\M\Desktop\0.pdf', pages='4', flavor='stream') # 将表格数据转化为csv文件
tables[0].to_csv(C:\Users\M\Desktop\0.csv')

结果是这样的……
File "C:\Users\M\PycharmProjects\smooth\table.py", line 2
tables = camelot.read_pdf('C:\Users\M\Desktop\0.pdf', pages='4', flavor='stream')
^
SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape

Process finished with exit code 1

还有用pdfplumber的，也几乎都是这样的结果，或者只输出这个结果的最后一行文字。其中一个代码是这样的

import PyPDF2
import pdfplumber
import pandas as pd
file = r'C:\Users\M\Desktop\0.pdf' # 自己的pdf路径
with pdfplumber.open(file) as pdf:
for i in pdf.pages:
for 表格 in i.extract_tables():
数据 = pd.DataFrame(表格[1:],columns = 表格[0])
数据.to_csv(r'C:\Users\M\Desktop\0.csv',mode = 'a',encoding = 'ANSI') # mode为a表示自动在后面添加数据。

结果：
Traceback (most recent call last):
File "C:\Users\M\PycharmProjects\smooth\table.py", line 9, in
数据.to_csv(r'C:\Users\M\Desktop\0.csv',mode = 'a',encoding = 'ANSI') # mode为a表示自动在后面添加数据。
File "C:\Users\M\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\core\generic.py", line 3551, in to_csv
return DataFrameRenderer(formatter).to_csv(
File "C:\Users\M\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\io\formats\format.py", line 1180, in to_csv
csv_formatter.save()
File "C:\Users\M\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\io\formats\csvs.py", line 261, in save
self._save()
File "C:\Users\M\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\io\formats\csvs.py", line 265, in _save
self._save_header()
File "C:\Users\M\AppData\Local\Programs\Python\Python310\lib\site-packages\pandas\io\formats\csvs.py", line 270, in _save_header
self.writer.writerow(self.encoded_labels)
File "C:\Users\M\AppData\Local\Programs\Python\Python310\lib\encodings\mbcs.py", line 25, in encode
return mbcs_encode(input, self.errors)[0]
UnicodeEncodeError: 'mbcs' codec can't encode characters in position 0--1: invalid character

Process finished with exit code 1

这个代码输出了表格，但是和原PDF并不一样哎

整的有点心累，所以就来这了。感谢指点迷津，比心~

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
快乐小土狗 2022-07-12 20:32
关注
瞅瞅这个
https://blog.csdn.net/m0_59236127/article/details/122712637

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

用Python从PDF中提取表格
2025-02-08 16:56

Yvonne978的博客用Python从PDF中提取表格
Python一键提取PDF中的表格到Excel
2023-01-28 10:26

总的来说，通过Python的PyPDF2和pandas库，我们可以高效地完成从PDF中提取表格并转换为Excel格式的任务。这种方法在数据处理工作流中非常实用，尤其是当需要大量处理包含表格的PDF文件时，能够显著提高工作效率。...
Python提取PDF表格[代码]
2025-11-13 06:55

本文详细介绍了如何使用pdfplumber进行PDF表格数据的提取，并且通过一个具体案例演示了从NBA常规赛数据PDF中提取表格数据的过程。案例中，作者展示了如何将提取的数据转换为Pandas的DataFrame格式，并最终保存为...
python实例-Python一键提取PDF中的表格到Excel
2024-12-16 09:35

通过Python实现从PDF提取表格数据并导出到Excel的功能是一个综合性的项目，它涉及到编程、数据处理以及对特定业务需求的理解。熟练掌握相关库和工具的使用，能够帮助我们高效地完成这一任务，从而提高工作效率和数据...
Python一键提取PDF中的表格到Excel.zip
2025-08-16 09:51

随着Python编程语言的广泛应用，尤其是其强大的第三方库生态系统，实现PDF文档中表格数据的提取并转换为Excel格式已成为可能。这一过程涉及的主要步骤包括读取PDF文件，定位并解析表格数据，以及最终将解析得到的...
Python 提取 PDF 中的表格数据
2021-12-18 22:54

achi010的博客 PDF 中的表格数据，使用 Python 提取，使用的框架是 pdfplumber 或 camelot 。
使用python实现pdf表格转为excel表格
2024-09-16 09:45

其中，从PDF文档中提取表格数据并将其转换为Excel格式是一项常见的任务。Python作为一种广泛使用的编程语言，提供了强大的库来实现这一需求。本文将详细介绍如何使用Python来实现将PDF表格转换为Excel表格的过程。 ...
如何用Python从大量PDF中提取表格中的数据进行分析？
2024-11-29 17:54

cda2024的博客在当今数字化时代，PDF文件因其便携性和兼容性而被广泛用于存储各种文档。然而，当需要从大量的PDF文件中提取表格数据进行分析时，手动...本文将详细介绍如何使用Python从大量PDF中提取表格数据，并进行进一步的分析。
python实现PDF中表格转化为Excel的方法
2020-09-16 16:35

总的来说，通过`pdfplumber`库，我们可以轻松地从PDF文档中提取表格数据并转换为Excel格式，这对于数据科学家和分析师来说是一项非常实用的技能，特别是在处理大量PDF报表时。通过结合使用`pandas`这样的数据处理库...
【办公自动化】使用Python一键提取PDF中的表格到Excel
2023-08-05 13:34

艾派森的博客用Python从PDF文档中提取表格数据，并写入Excel文件，灰常灰常高效。上市公司的年报往往包含几百张表格，用它作为例子再合适不过，搞定这个，其他含表格的PDF都是小儿科了。今天以"保利地产年报"为例，这个PDF文档中...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月12日

怎么用python从PDF中提取表格呀

2条回答 默认 最新

问题事件

2条回答默认最新