python批量提取发票的信息

1.以滴滴开具的增值税发票为例，需要批量提取的信息包括：PDF文件名、PDF内容：发票号码、开票日期、购买方名称、购买方纳税人识别号、“货物或应税劳务、服务名称”、数量、单价、金额、税率、税额、价税合计小写金额、销售方名称、销售方纳税人识别号。
2.需要输出为excel文件
3.酬金80

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

21条回答默认最新

然然超绝肌肉线条 2024-08-02 23:43

关注

以下是完整代码

import os
import pandas as pd
from pdfminer.high_level import extract_text
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
import io

def extract_information_from_pdf(pdf_path):
    # 提取 PDF 文本内容
    text = extract_text(pdf_path)

    # 解析发票信息
    invoice_info = {}
    lines = text.split('\n')
    for line in lines:
        if '发票号码' in line:
            invoice_info['发票号码'] = line.split('：')[1].strip()
        elif '开票日期' in line:
            invoice_info['开票日期'] = line.split('：')[1].strip()
        elif '购买方名称' in line:
            invoice_info['购买方名称'] = line.split('：')[1].strip()
        elif '购买方纳税人识别号' in line:
            invoice_info['购买方纳税人识别号'] = line.split('：')[1].strip()
        elif '货物或应税劳务、服务名称' in line:
            invoice_info['货物或应税劳务、服务名称'] = line.split('：')[1].strip()
        elif '数量' in line:
            invoice_info['数量'] = line.split('：')[1].strip()
        elif '单价' in line:
            invoice_info['单价'] = line.split('：')[1].strip()
        elif '金额' in line:
            invoice_info['金额'] = line.split('：')[1].strip()
        elif '税率' in line:
            invoice_info['税率'] = line.split('：')[1].strip()
        elif '税额' in line:
            invoice_info['税额'] = line.split('：')[1].strip()
        elif '价税合计小写金额' in line:
            invoice_info['价税合计小写金额'] = line.split('：')[1].strip()
        elif '销售方名称' in line:
            invoice_info['销售方名称'] = line.split('：')[1].strip()
        elif '销售方纳税人识别号' in line:
            invoice_info['销售方纳税人识别号'] = line.split('：')[1].strip()

    return invoice_info

def process_pdf_files(pdf_directory, output_excel):
    # 存储发票信息的列表
    invoices = []

    # 遍历 PDF 目录中的所有文件
    for filename in os.listdir(pdf_directory):
        if filename.endswith('.pdf'):
            pdf_path = os.path.join(pdf_directory, filename)

            # 提取发票信息
            invoice_info = extract_information_from_pdf(pdf_path)

            # 添加 PDF 文件名
            invoice_info['PDF 文件名'] = filename

            invoices.append(invoice_info)

    # 创建 DataFrame
    df = pd.DataFrame(invoices)

    # 保存为 Excel 文件
    df.to_excel(output_excel, index=False)

# 指定 PDF 目录和输出 Excel 文件路径
pdf_directory = 'your_pdf_directory'
output_excel = 'output.xlsx'

# 处理 PDF 文件并生成 Excel
process_pdf_files(pdf_directory, output_excel)

#运行时记得将  'your_pdf_directory'  替换为实际的 PDF 文件目录路径。运行代码后，它将提取所有 PDF 文件中的发票信息，并将其保存到  output.xlsx  文件中。

在运行上述代码之前，你需要确保安装了以下库：
1. pandas ：用于数据处理和创建 Excel 文件。
2. pdfminer ：用于提取 PDF 文件中的文本内容。

可使用命令通过pip安装


pip install pandas pdfminer

当然你也可以选择你熟悉的方法安装

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(20条)

报告相同问题？

关注问题

python 批量实现OFD发票文件解析，并转存至excel中
2024-10-16 00:14

Python 批量实现OFD发票文件解析，并转存至Excel中的技术过程涵盖了数据处理、自动化和办公效率提升等多个领域。OFD文件是“开放版式文档格式”（Open Fixed-layout Document Format）的缩写，是一种中国国家标准的...
Python批量识别发票信息[项目代码]
2025-11-14 12:22

本文详细介绍了如何通过Python编程实现发票信息的批量识别和自动填写报账系统的过程。首先，文章说明了作者利用pdfplumber库来提取PDF格式发票中的关键信息，这些信息包含发票代码、发票号码、开票日期、校验码以及...
Python批量提取PDF发票信息保存至Excel文件并对文件重命名
2022-02-12 15:36

在本项目中，我们主要探讨如何使用Python编程来批量处理PDF发票信息的提取，并将这些信息整理保存到Excel文件中，同时对原始PDF文件进行重命名。这个过程涉及到多个技术点，包括`pdfplumber`库用于读取PDF数据，`...
Python批量识别发票信息并自动填写到网上
2023-05-21 19:46

PythonFun的博客如果手机一个个复制粘贴，非常麻烦，而且容易出错，如果采用Python的话则很容易把信息提取到Excel表中，这样再分别录入到网上就快捷多了。我借鉴网上的代码，同时把源代码进行了修改，增加了批量写入Excel文件中的...
使用Python 实现：批量提取发票内容
2025-02-14 13:42

weixin_44829025的博客在日常的财务和办公处理中，我们常常会遇到大量的 PDF 格式发票，需要从中提取关键数据，如开票公司...今天，我们就来分享一个使用 Python 和 PyQt5 开发的 PDF 发票数据提取工具，它可以自动化地完成这些繁琐的工作。
Python调用豆包API批量提取图片信息
2025-08-08 15:26

PythonFun的博客针对手机拍摄图片不清晰的问题，提出了两种解决方案：一是使用豆包AI智能体进行单张图片识别（免费但需手动操作），二是通过Python编程实现批量处理（需API调用）。重点介绍了基于Tkinter框架开发的图片信息提取工具...
发票信息提取并生成Excel文件
2022-09-24 11:55

提取的发票信息可以利用Python的pandas库或VBA（Visual Basic for Applications）脚本编程生成Excel文件。在Excel中，我们可以创建工作表，设置格式，添加计算公式，以及利用图表进行可视化分析。 5. **自动化流程*...
python批量识别图片指定区域文字内容
2021-01-20 06:30

总的来说，Python批量识别图片指定区域文字内容的工作流程是：先利用模板匹配定位文字区域，然后剪裁出目标区域，最后通过OCR技术提取文字。这种技术在处理大量含有特定格式文本的图像时非常有用，例如在发票处理、...
自动化办公神器！用Python批量识别发票并录入到Excel表格！可以讨财务女神开心了！
2021-07-07 15:47

爬遍天下无敌手的博客故事的开始今天去财务拿上个月的工资条核对！发现女神一脸闷闷不乐！好像天要塌下来一样！我对完工资就问：女神，你咋不开心，不是马上就要发工资了嘛！...这里有以四张发票为例，将发票图片放到pic文件夹下
LangFlow发票信息提取与归类AI系统
2025-12-22 06:37

懒癌弓箭手起源的博客利用LangFlow可视化搭建发票信息提取与归类系统，通过拖拽节点连接文档加载、文本分割、提示工程和大模型推理等模块，实现无需编码的高效AI流程设计。结合LangChain与结构化输出控制，确保准确解析多样化发票内容，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 8月3日
展开全部

python批量提取发票的信息

21条回答 默认 最新

问题事件

21条回答默认最新