为什么读取出来没有数据

import re
from pdfminer.high_level import extract_text
from pdfminer.layout import LAParams
import openpyxl

提取PDF中的文本信息

with open('发票.pdf', 'rb') as file:
text = extract_text(file, laparams=LAParams(line_margin=1))

定义正则表达式

regex = r"编号：(.*?)(?:\n|$)"
xinyongcodes = re.findall(regex,text)

创建一个新的Excel工作簿

workbook = openpyxl.Workbook()
sheet = workbook.active

写入数据到Excel

row_num = 1
for code in xinyongcodes:
if code.strip():
sheet.cell(row=row_num, column=1, value=code.strip())
row_num += 1

保存Excel文件

workbook.save(filename='luomiqi1.xlsx')

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
小ᶻ☡꙳ᵃⁱᵍᶜ꙳ 优质创作者: 人工智能技术领域 2024-09-07 10:44
关注
该回答引用自GPT-4o，由博主小ᶻZ࿆编写：

问题分析：

PDF 内容提取失败：如果没有数据，首先需要确认 pdfminer 是否成功提取了 PDF 中的文本。可以通过打印 text 的内容来检查是否成功获取到了数据。
print(text) # 检查提取的文本内容

文件路径和编码问题：确保 发票.pdf 的路径是正确的，并且文件能够正常读取。如果文件名中有中文字符，可能需要处理文件编码问题。

解决方案建议：

确认 PDF 内容提取是否正常：先通过 print(text) 检查提取到的内容。
调整正则表达式：如果提取的内容结构复杂，可以使用更精确的正则表达式或逐行解析。
使用其他工具处理复杂 PDF：如果 pdfminer 无法处理，可以尝试 PyMuPDF 或者使用 OCR 进行文本提取。

通过这些检查，应该能够找到读取不出数据的原因。

如有帮助，题主可以采纳一下嘛，谢谢~
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

awk命令文本和数据进行处理的编程语言
2021-01-20 15:00

awk命令是一种编程语言，用于在linux/unix下对文本和数据进行处理。而且它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。语法格式：awk [参数] [文件] 常用参数： -F ...
精通选择：如何为爬虫项目挑选合适的编程语言
2024-06-28 23:14

爬虫开发涉及到从网页中提取信息、处理数据以及存储结果等多个步骤，选择合适的编程语言对于爬虫项目的效率和可维护性至关重要。本文将探讨如何根据项目需求、资源和团队技能来选择合适的编程语言进行爬虫开发。 ...
编程语言下的算法实现资源概述
2024-11-24 09:46

内容概要：本文详细介绍了Python、C/C++、Java等多种编程语言下的算法实现资源，涵盖了GitHub上的开源项目、在线编程平台、经典书籍和教程、社区和论坛等多个方面。每个部分列出了具体的资源名称及其主要内容和用途...
R语言是一种广泛使用的统计编程语言和软件环境，非常适合进行数据分析、数据可视化以及统计建模下面我将通过一个简单的R语言数据分析
2024-09-11 21:34

r语言数据分析案例R语言是一种广泛使用的统计编程语言和软件环境，非常适合进行数据分析、数据可视化以及统计建模。下面我将通过一个简单的R语言数据分析案例来展示其基本用法。案例：分析某城市天气数据假设我们...
爬取TIOBE的编程语言排行榜
2021-01-21 16:50

最近，本人打算搞一个编程语言排名的可视化，需要数据，于是就从TIOBE上爬了一些数据。下面我来分享一下我的思路，思路仅供参考，可能有更好的方法，如果小伙伴们有好方法，可以在评论区留言哦。本次爬取的目标：...
R语言统计编程入门
2025-09-25 00:24

R语言是一种专门用于统计分析的编程语言，它具有强大的数据处理和可视化能力，广泛应用于科研和数据分析领域。本书《R语言统计编程入门》旨在为初学者提供一个全面的R语言学习平台，内容覆盖从基础语法到高级统计...
R语言编程与数据统计分析实战.pdf
2022-04-04 21:18

在R语言的知识体系与资源部分，课程不仅讲解了R语言的基础，还涉及了大数据工具，如如何利用R语言进行数据采集，包括从Excel、MySQL数据库以及网络爬虫获取数据的方法。此外，还介绍了RStudio这一集成开发环境，强调...
R语言编程基础-习题数据和答案.rar
2022-07-13 09:48

【R语言编程基础】是学习数据科学和统计分析的重要工具，尤其对于初学者而言，掌握其基础知识至关重要。这个压缩包“R语言编程基础-习题数据和答案.rar”显然是一个教学资源，包含了从入门到进阶的一系列学习材料，...
Python制作编程语言20年动态排行榜
2022-04-20 17:07

Python是一种广泛应用于各种领域的高级编程语言，特别是在数据分析、科学计算、机器学习以及Web开发中有着极高的声誉。自1991年由Guido van Rossum创造以来，Python经历了二十多年的发展，逐渐成为全球最受欢迎的...
编程语言发展史：Python语言的兴起和特点
2023-05-21 21:06

Python语言的发展历程可以看出，Python语言从最初的系统管理工具发展到今天成为一种广泛应用的编程语言，涵盖了多个领域，包括Web开发、数据分析、人工智能等。 Python语言的特点包括： 1. 简洁明了：Python语言的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月6日