怎么利用python 抓取扫描版pdf中的信息

抓取信息如图所示，如产品名称：鸡蛋6枚装，以此类推，一一对应

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

专家-赤兔[在线] 全栈领域优质创作者 2024-04-21 23:03

关注

引自免费微信小程序：皆我百晓生

要从扫描版PDF中提取文字，你需要使用OCR（光学字符识别）技术。Python中有几个库可以实现这个功能，比如PyTesseract（基于Tesseract OCR引擎）、PIL（Python Imaging Library，用于处理图像）和PDFMiner（用于解析PDF）。这里我们将使用PyTesseract和PIL进行操作。

首先，确保你已经安装了所需的库和软件。运行以下命令安装它们：

pip install pytesseract pillow pdf2image tabula-py

然后，按照以下步骤操作：

将扫描版PDF转换为图片。
对每个图片应用OCR技术提取文本。
使用正则表达式解析提取出的数据。
存储结果到合适的数据结构（如字典）中。

以下是完整的示例代码：

import os
import re
from PIL import Image
import pytesseract
from pdf2image import convert_from_path
import pandas as pd

# 设置Tesseract OCR的路径，如果你的系统中没有默认配置
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

def extract_text_from_pdf(pdf_path, output_folder):
    # 将PDF转换为图片
    images = convert_from_path(pdf_path)
    
    text_data = []
    for i, image in enumerate(images):
        img_file_name = f"{output_folder}/page_{i+1}.png"
        image.save(img_file_name)

        # 从图片中提取文本
        text = pytesseract.image_to_string(Image.open(img_file_name), lang='eng')
        
        # 清理文本，删除不必要的换行符
        cleaned_text = re.sub(r'\n+', '\n', text)
        
        text_data.append(cleaned_text)
        os.remove(img_file_name)  # 删除临时图片文件，可根据需求选择是否保留
        
    return text_data

def parse_text(text_data):
    result = {}
    lines = []
    line_buffer = []

    for data in text_data:
        lines.extend(data.split('\n'))

    for line in lines:
        if "产品名称" in line:
            result["产品名称"] = get_next_line(lines, "产品名称")
        elif "等级" in line:
            result["等级"] = get_next_line(lines, "等级")
        elif "净重" in line:
            result["净重"] = get_next_line(lines, "净重")
        elif "单位" in line:
            result["单位"] = get_next_line(lines, "单位")
        elif "单价" in line:
            result["单价（含税）"] = get_next_line(lines, "单价（含税）")
        elif "数量" in line:
            result["数量"] = get_next_line(lines, "数量")
        elif "金额" in line:
            result["金额"] = get_next_line(lines, "金额")

    return result

def get_next_line(lines, key):
    next_line = None
    for line in lines:
        if not next_line and line.strip():
            next_line = line.strip()
        else:
            break
    return next_line

def main(pdf_path):
    output_folder = "temp_images"
    os.makedirs(output_folder, exist_ok=True)

    text_data = extract_text_from_pdf(pdf_path, output_folder)
    parsed_data = parse_text(text_data)

    print(parsed_data)

if __name__ == "__main__":
    main("your_pdf_file_path.pdf")  # 替换为你的PDF文件路径

这段代码将提取PDF中的相关信息并打印出来。注意，由于OCR可能存在的错误，此方法可能不适用于所有类型的扫描文档。对于更复杂的情况，你可能需要使用更高级的布局分析工具，如tabula-py或专门针对表格数据的库。此外，你还可以尝试调整OCR参数以提高识别准确性。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(4条)

报告相同问题？

关注问题

Python编程语言 list python 有问必答
2021-12-29 11:00

回答 2 已采纳 import random n=int(input()) list=[] for i in range(n): list.append(random.randint(1,200)) print
关于#python#的问题：用python编写爬虫程序，将文字和图像等信息抓取到sqlite中保存 python
2022-06-04 10:47

回答 1 已采纳 import sqlite3 import re import requests from lxml import html findlink = re.compile(r'<a href=
python编程解决问题 python 有问必答
2021-06-09 20:56

回答 2 已采纳 import random a=[] sum=0 max=0 min=1000 for i in range(20): a.append(random.randint(1,999))
Python 安全编程教程.pdf
2019-10-22 11:05

Python安全编程是一门利用Python语言进行信息安全研究的编程课程，它广泛应用于端口扫描、漏洞利用、网络嗅探、数据收集等方面。以下是从提供的文件信息中提取的知识点。 1. 端口扫描：端口扫描是指使用特定的软件...
Python语言可以在判断语句中赋值吗？ python
2018-08-20 16:31

回答 2 已采纳 3.7版才允许，语法为length := len(L) 3.7版之前的不可以，需单独一句复制
利用Python语言中的组合数据类型对学号和姓名进行存储，并实现利用学号访问姓名和利用姓名访问学号的操作。 python
2020-06-16 09:10

回答 3 已采纳连数据库吗，还是就用列表和字典存储即可？ ```python # 初始化一个列表，列表里面存放学生数据（字典） students = [ {'number': '100001'
python输入学生个人信息并写入到文件data.txt中（填空） python
2022-08-29 18:53

回答 1 已采纳 f = open("data.txt", 'w+') f.write("sno\tsname\tsage\n") stext = input() or "End" while stext != "E
Python网络编程pdf电子目录
2024-06-11 22:25

weixin_43946945的博客 Python网络编程第1章回顾TCP/IP协议簇和Python 1 1.1 互联网概述 2 1.1.1 服务器、主机和网络组件 2 1.1.2 数据中心的兴起 3 1.2 OSI模型 5 1.3 客户端-服务器模型 6 1.4 网络协议簇 7 1.4.1 传输控制协议 7 1.4.2...
一道简单的Python（编程写字母H) python
2022-03-03 20:02

回答 1 已采纳 for i in range(5): if i==2: print("*****") else: print("* *") 结果： * * *
python3点几的版本最稳定？ python
2022-08-02 11:41

回答 3 已采纳我们公司现在都用3.8，很稳定。
Python语言逢七拍手 python
2022-04-13 22:49

回答 1 已采纳 for i in range(1, 101): if i % 7 == 0: print('{} 除以7 = {}, 拍手'.format(i, i // 7))
树莓派python编程自学-树莓派Python编程指南中文PDF扫描版
2020-11-01 12:47

weixin_37988176的博客《树莓派Python编程指南》共12章：第1~3章深入介绍如何在树莓派上使用Python，为学习其他知识打下基础；第4章介绍使用Qt工具包开发图形用户界面；第5章介绍在Python中创建游戏；第6章介绍如何利用GPU来使用OpenGL...
如何利用python在Linux系统下静默打印pdf？注意点：Linux系统下。 python
2019-08-26 08:59

回答 1 已采纳 lpr命令了解一下？应该也是拼参数执行一下
从零开始学python必看，最强“Python编程三剑客（pdf）”(1)
2024-05-01 08:14

2401_84141332的博客该项目 “ 外星人入侵 ” （第 12~14 章）中，你将使用 Pygame 包来开发一款 2D 游戏，它在玩家每消灭一群向下移动的外星人后，都将玩家提高一个等级；而等级越高，游戏的节奏越快，难度越大。完成这个项目后，你将...
Python自动办公实例-PDF_识别并读取PDF中的文字.zip
2022-11-30 15:51

3. **OCR（Optical Character Recognition）技术**：对于图像化的PDF或者扫描版PDF，我们需要使用OCR技术将图像转换为可编辑的文本。Python中常用的OCR库有Tesseract，它是Google开源的一个OCR引擎，支持多种语言，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月21日

悬赏问题

¥15 VB.NET如何绘制倾斜的椭圆
¥15 在rhel8中安装qemu-kvm时遇到“cannot initialize crypto:unable to initialize gcrypt“报错”
¥15 arbotix没有/cmd_vel话题
¥15 paddle库安装时报错提示需要安装common、dual等库，安装了上面的库以后还是显示报错未安装，要怎么办呀？
¥20 找能定制Python脚本的
¥15 odoo17的分包重新供应路线如何设置？可从销售订单中实时直接触发采购订单或相关单据
¥15 用C语言怎么判断字符串的输入是否符合设定？
¥15 通信专业本科生论文选这两个哪个方向好研究呀
¥50 我在一个购物网站的排队系统排队，这个排队到号后重新定向到目标网站进行购物，但是有技术牛通过技术方法直接跳过排队系统进入目标网址购物，有没有什么软件或者脚本可以用
¥15 ios可以实现ymodem-1k协议 1024字节传输吗？

怎么利用python 抓取扫描版pdf中的信息

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新