在学习Python实现OCR识别的时候遇到问题

在学习使用Python实现OCR识别的时候出现了问题

现在是能够使用模型将内容识别输出，但是有很多我并不需要的信息，要如何才能准确的通过代码逻辑输出我想要的那一行信息或者将我想要的信息放到一个列表之类的地方再输出。

我想要达到的目标就是：准确的通过代码逻辑输出我想要的那一行信息或者将我想要的信息放到一个列表之类的地方再输出。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
MarkHan_ 2023-03-02 16:25
关注
该回答引用GPTᴼᴾᴱᴺᴬᴵ
在OCR识别的过程中，可能会出现很多干扰信息，需要进行过滤，只提取出自己需要的信息。具体实现方法可能因为不同的OCR引擎和识别场景而有所差异，但一般可以按以下步骤进行：

对OCR输出的文本进行预处理，如去除空格、特殊符号等，将文本转化为一行或一段。
根据自己需要的信息的特征，如关键词、位置等，筛选出需要的信息。可以使用正则表达式或者其他匹配方法来实现。
将筛选出的信息进行进一步的处理，如去除冗余信息、格式化输出等。
将处理后的信息输出，可以选择输出到文件、数据库、Web页面等。

下面是一个示例代码，以Tesseract OCR引擎为例，假设需要识别身份证上的姓名和身份证号码：

import pytesseract import re # 加载OCR引擎 pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' # 读取身份证图片 img = 'id_card.png' # OCR识别，输出原始文本 text = pytesseract.image_to_string(img, lang='chi_sim') print(text) # 去除空格、换行等 text = re.sub(r'\s+', '', text) # 筛选姓名和身份证号码 pattern_name = r'姓名([\u4e00-\u9fa5]{2,5})' pattern_id = r'身份证号码(\d{17}[\dX])' name = re.search(pattern_name, text).group(1) id_num = re.search(pattern_id, text).group(1) # 输出姓名和身份证号码 print('姓名：', name) print('身份证号码：', id_num)

这个示例代码中，首先使用Tesseract OCR引擎对身份证图片进行识别，得到原始文本。然后使用正则表达式筛选出姓名和身份证号码，最后输出这两个信息。在实际使用中，还可以根据需要对姓名和身份证号码进行进一步的处理和格式化。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

使用 Python 编程语言调用微信本地 OCR 识别服务教程
2025-07-27 17:05

本项目基于 Python 实现微信本地 OCR 模型的调用功能，核心技术方案由 QQImpl 的原有实现翻译而来。简单来说，就是将原本的 C++ 代码完整转换为纯 Python 代码实现，保留了原功能的同时优化了开发语言环境。本项目...
用Python实现OCR识别提取图片文字，操作简单，易上手
2025-06-14 16:22

程序员CC_的博客 1) TesseractOCR开源引擎，支持多语言，需先安装引擎和语言包；2) EasyOCR基于深度学习的库，识别准确率高...文章还提供了Python入门学习资源，包括学习路线、开发工具和实战案例，适合OCR技术学习者和Python初学者参考
easyocr 本地部署模型识别图像 ocr - python 实现
2024-10-12 18:40

这样，我们就可以在本地环境中的Python脚本里加载这个预训练模型，并用它来对新的图像数据进行OCR识别。这一步骤至关重要，因为它允许我们利用之前训练得到的知识来快速准确地识别新的图像中的文字。一旦模型被加载...
Python搭建OCR识别系统[代码]
2025-11-13 07:33

通过这种方式，Python搭建OCR识别系统的教程不仅提供了技术的实现方法，还提供了学习和实践编程技能的机会。此外，该系统还具有一定的扩展性。开发者可以根据需要添加更多的功能，如支持更多种语言、更复杂的图片...
基于python机器学习和OCR的车牌识别系统
2024-10-03 13:09

【作品名称】：基于python机器学习和OCR的车牌识别系统【适用人群】：适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。【项目介绍】：基于机器学习...
基于Python实现的中文手写简历OCR识别设计源码
2024-09-30 02:29

针对这一市场需求，出现了许多基于光学字符识别（OCR）技术的解决方案，其中，Python作为一门广泛使用的编程语言，在数据处理和机器学习领域中扮演着重要角色。本项目便是基于Python开发的一套中文手写简历OCR识别...
python ocr识别
2025-06-10 20:53

Python是一种广泛使用的高级编程语言，其在数据科学、机器学习、网络开发和自动化等领域拥有显著地位。Python以其易读性和简洁的语法而闻名，让程序员能够用更少的代码行来表达概念。近年来，Python的流行也得益于其...
基于Python实现的图像文字识别OCR工具【100012061】
2023-04-28 14:01

标题中的“基于Python实现的图像文字识别OCR工具”是指使用Python编程语言开发的一款软件工具，其主要功能是处理图像中的文字识别（Optical Character Recognition，OCR）。OCR技术是一种将图像中的字符转换为可编辑...
基于微信API的OCR文字识别功能Python实现源码
2024-10-01 01:39

通过微信API实现OCR文字识别功能，开发者不仅需要掌握Python编程技能，还需对微信平台的API有一定的了解和研究。OCR技术的应用范围广泛，涵盖了文档数字化、验证码识别、信息提取等多个领域，因此，该项目的实现不仅...
Python OCR识别系统[源码]
2025-11-15 09:49

本篇文章深入介绍了如何利用Python语言和CnOcr库搭建一套功能全面的OCR识别系统。在文章的开篇，作者对CnOcr模型的安装过程进行了详尽的阐述。通过简单的pip命令，开发人员便能迅速安装CnOcr模型，为后续的开发...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月2日

在学习Python实现OCR识别的时候遇到问题

4条回答 默认 最新

问题事件

4条回答默认最新