Python读取文档内容重命名问题

这边想读取PDF文档中的订单编号与发票号，并用其重新命名文件，这个有什么问题，总是报Failed to extract all necessary information from the PDF file。这个如何解决，改代码应该如何修改
代码如下：

import os  
import re  
import pdfplumber  
  
def extract_info_from_pdf(pdf_path):  
    order_id = None  
    invoice_number = None  
    invoice_amount = None  
      
    with pdfplumber.open(pdf_path) as pdf:  
        for page in pdf.pages:  
            text = page.extract_text()  
            if text:  
                # 订单编号固定为20位数字  
                order_id_match = re.search(r'\b\d{20}\b', text)  
                if order_id_match:  
                    order_id = order_id_match.group(0)  
                  
                # 发票号固定为8位数字  
                invoice_number_match = re.search(r'\b\d{8}\b', text)  
                if invoice_number_match and not invoice_number:  # 假设每个PDF只有一个发票号  
                    invoice_number = invoice_number_match.group(0)  
                  
                # 发票金额包含“元”字，可能包含小数  
                invoice_amount_match = re.search(r'(\d+(\.\d+)?)元', text)  
                if invoice_amount_match:  
                    invoice_amount = invoice_amount_match.group(1)  
          
        # 检查是否提取到所有必要信息  
        if all([order_id, invoice_number, invoice_amount]):  
            return order_id, invoice_number, invoice_amount, "Success"  
        else:  
            return None, None, None, "Failed to extract all necessary information from the PDF file."  
  
def rename_file(old_path, new_name):  
    dir_name = os.path.dirname(old_path)  
    new_path = os.path.join(dir_name, new_name)  
    try:  
        os.rename(old_path, new_path)  
        print(f"Renamed {old_path} to {new_path}")  
        return "Success"  
    except Exception as e:  
        return f"Failed to rename file: {e}"  
  
# 指定PDF文件路径  
pdf_path = 'D:\\Desktop\\code\\陈述事实.pdf'  
  
# 提取信息  
order_id, invoice_number, invoice_amount, extract_status = extract_info_from_pdf(pdf_path)  
  
if extract_status == "Success":  
    # 构建新文件名并重命名文件  
    new_filename = f"{order_id}-{invoice_number}-{invoice_amount}元.pdf"  
    rename_status = rename_file(pdf_path, new_filename)  
    if rename_status == "Success":  
        print("Overall operation successful.")  
    else:  
        print(rename_status)  
else:  
    print(extract_status)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2024-07-03 16:17
关注
以下内容由CHATGPT及阿里嘎多学长共同生成、有用望采纳：

你好！看起来你在尝试使用 Python 来从 PDF 文档中提取特定的文本信息，并用这些信息来重命名文件。你遇到的问题可能是由于几个原因造成的，让我们一步步来分析和解决。

文本提取问题：pdfplumber 可能无法从 PDF 中提取文本，这可能是因为 PDF 的格式问题，或者是因为文本被以图像的形式嵌入到 PDF 中。这种情况下，pdfplumber 无法识别文本。

正则表达式匹配问题：你的正则表达式可能需要根据实际的文本格式进行调整。例如，如果订单编号或发票号前后有特殊字符或者格式，你的正则表达式可能需要相应地进行修改。

错误处理：你的代码在提取信息失败时会返回错误信息，但没有提供具体的调试信息来帮助定位问题。

为了解决这个问题，你可以尝试以下几个步骤：

确保 PDF 可读：首先确认 PDF 文件是否是文本格式，而不是扫描的图像。如果是图像，你可能需要使用 OCR（光学字符识别）技术来提取文本。

调整正则表达式：检查你的 PDF 文档，看看订单编号和发票号前后是否有一致的格式或特殊字符，然后在正则表达式中相应地进行匹配。

增加调试信息：在 extract_info_from_pdf 函数中，你可以在每个匹配步骤后打印出匹配到的值，这样可以帮助定位问题。

处理特殊情况：如果 PDF 中包含多个发票号或者金额格式不一致，你的代码需要能够处理这些情况。

下面是一些修改后的代码示例，增加了调试信息和一些可能的正则表达式调整：

def extract_info_from_pdf(pdf_path): # ... 省略之前的代码 ... for page in pdf.pages: text = page.extract_text() if text: print(f"Extracted text from page: {text}") # 调试信息 # ... 省略之前的代码 ... # 发票金额可能有不同的格式，这里尝试更通用的匹配 invoice_amount_match = re.search(r'(\d+(\.\d+)?)元', text) if invoice_amount_match: invoice_amount = invoice_amount_match.group(1) print(f"Matched invoice amount: {invoice_amount}") # 调试信息 # ... 省略之前的代码 ... if not all([order_id, invoice_number, invoice_amount]): missing_info = [info for info in [order_id, invoice_number, invoice_amount] if info is None] return None, None, None, f"Failed to extract all necessary information: Missing {missing_info}." return order_id, invoice_number, invoice_amount, "Success" # ... 省略之前的代码 ...

希望这些建议能帮助你解决问题。如果你需要进一步的帮助，或者有其他问题，请随时告诉我！
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

有关python读取txt文档的问题 python
2019-05-30 12:41

回答 1 已采纳这个应该是很基础的东西把？ ``` with open(file) as f: for line in f.readlines(): print(line) ``` 用
python编程解决问题 python 有问必答
2021-06-09 20:56

回答 2 已采纳 import random a=[] sum=0 max=0 min=1000 for i in range(20): a.append(random.randint(1,999))
Python编程语言中:f的含义 python 开发语言
2021-11-05 17:43

回答 3 已采纳 f-string采用 {content:format} 设置字符串格式，其中 content 是替换并填入字符串的内容，可以是变量、表达式或函数等，format 是格式描述符.具体函数可以参考看
Python给所有文件夹重命名总结.zip-综合文档
2021-05-20 19:13

在IT行业中，Python是一种广泛应用的编程语言，尤其在文件操作方面表现出强大的能力。这篇文档“Python给所有文件夹重命名总结”将详细讲解如何利用Python有效地对文件夹进行批量重命名。这一技能对于数据处理、自动...
Python用什么方法可以获取到Word文档里的批注内容？ python
2019-05-07 17:14

回答 2 已采纳你好，我在 test.docx 文件中加了一个批注用来测试。使用下面的代码成功输出了我的批注。 ``` from zipfile import ZipFile from bs4 import
一个python读取csv文件对指定列求和问题 python 开发语言
2022-02-14 15:21

回答 5 已采纳 import pandas as pd df=pd.read_csv('d:/data/newly_confirmed_cases_daily.csv') num=df.Akita.sum() pr
Python获取div下内容 python 爬虫
2022-04-14 10:52

回答 1 已采纳一个取巧的方法： # span后面的懒得写了。。正则表达式的前后缀你可以改动一下 list_match = re.findall(r'<span...>(.*?)</span>
Python对文件进行重命名的方法
2024-07-15 15:20

编程小郭的博客在Python中，对文件进行重命名是一个相对简单的操作，这主要通过os模块中的rename()函数来实现。os模块是Python标准库的一部分，它提供了许多与操作系统交互的功能，包括对文件和目录的管理。下面是如何使用。
python获取鼠标选定内容 python
2022-09-05 17:57

回答 1 已采纳可以尝试pyuserinput包
Python编程语言 list python 有问必答
2021-12-29 11:00

回答 2 已采纳 import random n=int(input()) list=[] for i in range(n): list.append(random.randint(1,200)) print
python中怎么重命名带有括号的列名 python 有问必答
2021-06-19 22:21

回答 2 已采纳对你有帮助，望采纳，谢谢用df.rename(columns=your_column_mapping) 如 df.rename(columns={"('Name', '')" : "Name
《Python文件批量重命名实战教程：os模块应用，高效办公技巧》，知识领域：Python编程，技术关键词：Python，os模
2024-05-05 14:22

Python作为一种强大的编程语言，提供了丰富的工具和库来解决这类问题。本教程将详细介绍如何使用Python中的`os`模块来批量重命名文件，这对于提升办公效率非常有用。 #### 二、适用人群与场景 - **适用人群**：本...
python使用import docx读取word内容有缺失 python
2023-04-17 21:09

回答 2 已采纳该回答引用chatgpt:针对这种情况，可以使用正则表达式过滤掉空格和特殊字符，以保证读取的内容完整。例如，可以使用如下代码过滤空格和特殊字符： import re import docx doc
太原理工软件工程Linux与Python编程
2024-05-16 21:44

综上所述，通过对太原理工软件工程Linux与Python编程实验的学习，不仅能够掌握Linux系统的基本操作，还能够深入理解Python编程语言的核心概念和编程技巧。这对于从事软件开发工作的人员来说是非常重要的基础知识。
基于Python的批量重命名Word文档并转换为PDF.zip
2024-02-04 13:03

首先，Python作为一种高级编程语言，因其语法简洁、库资源丰富而被广泛应用于各种自动化任务。在本例中，开发者可能使用了Python的`os`库来遍历文件系统，找到所有的Word文档；`docx2pdf`库则可能用于将`.docx`文件...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月3日

悬赏问题

¥15 如何在vue.config.js中读取到public文件夹下window.APP_CONFIG.API_BASE_URL的值
¥50 浦育平台scratch图形化编程
¥20 求这个的原理图只要原理图
¥15 vue2项目中，如何配置环境，可以在打完包之后修改请求的服务器地址
¥20 微信的店铺小程序如何修改背景图
¥15 UE5.1局部变量对蓝图不可见
¥15 一共有五道问题关于整数幂的运算还有房间号码还有网络密码的解答？(语言-python)
¥20 sentry如何捕获上传Android ndk 崩溃
¥15 在做logistic回归模型限制性立方条图时候，不能出完整图的困难
¥15 G0系列单片机HAL库中景园gc9307液晶驱动芯片无法使用硬件SPI+DMA驱动，如何解决？

Python读取文档内容重命名问题

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新