Pulse snowfall 2024-04-21 23:03 采纳率: 55.6%
浏览 20
已结题

怎么利用python 抓取扫描版pdf中的信息

img


抓取信息如图所示,如产品名称:鸡蛋6枚装,以此类推,一一对应

  • 写回答

5条回答 默认 最新

  • 专家-赤兔[在线] 全栈领域优质创作者 2024-04-21 23:03
    关注

    引自免费微信小程序:皆我百晓生

    要从扫描版PDF中提取文字,你需要使用OCR(光学字符识别)技术。Python中有几个库可以实现这个功能,比如PyTesseract(基于Tesseract OCR引擎)、PIL(Python Imaging Library,用于处理图像)和PDFMiner(用于解析PDF)。这里我们将使用PyTesseractPIL进行操作。

    首先,确保你已经安装了所需的库和软件。运行以下命令安装它们:

    pip install pytesseract pillow pdf2image tabula-py
    

    然后,按照以下步骤操作:

    1. 将扫描版PDF转换为图片。
    2. 对每个图片应用OCR技术提取文本。
    3. 使用正则表达式解析提取出的数据。
    4. 存储结果到合适的数据结构(如字典)中。

    以下是完整的示例代码:

    import os
    import re
    from PIL import Image
    import pytesseract
    from pdf2image import convert_from_path
    import pandas as pd
    
    # 设置Tesseract OCR的路径,如果你的系统中没有默认配置
    pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
    
    def extract_text_from_pdf(pdf_path, output_folder):
        # 将PDF转换为图片
        images = convert_from_path(pdf_path)
        
        text_data = []
        for i, image in enumerate(images):
            img_file_name = f"{output_folder}/page_{i+1}.png"
            image.save(img_file_name)
    
            # 从图片中提取文本
            text = pytesseract.image_to_string(Image.open(img_file_name), lang='eng')
            
            # 清理文本,删除不必要的换行符
            cleaned_text = re.sub(r'\n+', '\n', text)
            
            text_data.append(cleaned_text)
            os.remove(img_file_name)  # 删除临时图片文件,可根据需求选择是否保留
            
        return text_data
    
    def parse_text(text_data):
        result = {}
        lines = []
        line_buffer = []
    
        for data in text_data:
            lines.extend(data.split('\n'))
    
        for line in lines:
            if "产品名称" in line:
                result["产品名称"] = get_next_line(lines, "产品名称")
            elif "等级" in line:
                result["等级"] = get_next_line(lines, "等级")
            elif "净重" in line:
                result["净重"] = get_next_line(lines, "净重")
            elif "单位" in line:
                result["单位"] = get_next_line(lines, "单位")
            elif "单价" in line:
                result["单价(含税)"] = get_next_line(lines, "单价(含税)")
            elif "数量" in line:
                result["数量"] = get_next_line(lines, "数量")
            elif "金额" in line:
                result["金额"] = get_next_line(lines, "金额")
    
        return result
    
    def get_next_line(lines, key):
        next_line = None
        for line in lines:
            if not next_line and line.strip():
                next_line = line.strip()
            else:
                break
        return next_line
    
    def main(pdf_path):
        output_folder = "temp_images"
        os.makedirs(output_folder, exist_ok=True)
    
        text_data = extract_text_from_pdf(pdf_path, output_folder)
        parsed_data = parse_text(text_data)
    
        print(parsed_data)
    
    if __name__ == "__main__":
        main("your_pdf_file_path.pdf")  # 替换为你的PDF文件路径
    

    这段代码将提取PDF中的相关信息并打印出来。注意,由于OCR可能存在的错误,此方法可能不适用于所有类型的扫描文档。对于更复杂的情况,你可能需要使用更高级的布局分析工具,如tabula-py或专门针对表格数据的库。此外,你还可以尝试调整OCR参数以提高识别准确性。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(4条)

报告相同问题?

问题事件

  • 系统已结题 5月4日
  • 已采纳回答 4月26日
  • 创建了问题 4月21日

悬赏问题

  • ¥15 VB.NET如何绘制倾斜的椭圆
  • ¥15 在rhel8中安装qemu-kvm时遇到“cannot initialize crypto:unable to initialize gcrypt“报错”
  • ¥15 arbotix没有/cmd_vel话题
  • ¥15 paddle库安装时报错提示需要安装common、dual等库,安装了上面的库以后还是显示报错未安装,要怎么办呀?
  • ¥20 找能定制Python脚本的
  • ¥15 odoo17的分包重新供应路线如何设置?可从销售订单中实时直接触发采购订单或相关单据
  • ¥15 用C语言怎么判断字符串的输入是否符合设定?
  • ¥15 通信专业本科生论文选这两个哪个方向好研究呀
  • ¥50 我在一个购物网站的排队系统排队,这个排队到号后重新定向到目标网站进行购物,但是有技术牛通过技术方法直接跳过排队系统进入目标网址购物,有没有什么软件或者脚本可以用
  • ¥15 ios可以实现ymodem-1k协议 1024字节传输吗?