在学习Python实现OCR识别的时候遇到问题

在学习使用Python实现OCR识别的时候出现了问题

现在是能够使用模型将内容识别输出，但是有很多我并不需要的信息，要如何才能准确的通过代码逻辑输出我想要的那一行信息或者将我想要的信息放到一个列表之类的地方再输出。

我想要达到的目标就是：准确的通过代码逻辑输出我想要的那一行信息或者将我想要的信息放到一个列表之类的地方再输出。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
MarkHan_ 2023-03-02 16:25
关注
该回答引用GPTᴼᴾᴱᴺᴬᴵ
在OCR识别的过程中，可能会出现很多干扰信息，需要进行过滤，只提取出自己需要的信息。具体实现方法可能因为不同的OCR引擎和识别场景而有所差异，但一般可以按以下步骤进行：

对OCR输出的文本进行预处理，如去除空格、特殊符号等，将文本转化为一行或一段。
根据自己需要的信息的特征，如关键词、位置等，筛选出需要的信息。可以使用正则表达式或者其他匹配方法来实现。
将筛选出的信息进行进一步的处理，如去除冗余信息、格式化输出等。
将处理后的信息输出，可以选择输出到文件、数据库、Web页面等。

下面是一个示例代码，以Tesseract OCR引擎为例，假设需要识别身份证上的姓名和身份证号码：

import pytesseract import re # 加载OCR引擎 pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' # 读取身份证图片 img = 'id_card.png' # OCR识别，输出原始文本 text = pytesseract.image_to_string(img, lang='chi_sim') print(text) # 去除空格、换行等 text = re.sub(r'\s+', '', text) # 筛选姓名和身份证号码 pattern_name = r'姓名([\u4e00-\u9fa5]{2,5})' pattern_id = r'身份证号码(\d{17}[\dX])' name = re.search(pattern_name, text).group(1) id_num = re.search(pattern_id, text).group(1) # 输出姓名和身份证号码 print('姓名：', name) print('身份证号码：', id_num)

这个示例代码中，首先使用Tesseract OCR引擎对身份证图片进行识别，得到原始文本。然后使用正则表达式筛选出姓名和身份证号码，最后输出这两个信息。在实际使用中，还可以根据需要对姓名和身份证号码进行进一步的处理和格式化。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

在学习Python实现OCR识别的时候遇到问题 python 开发语言有问必答
2023-03-02 15:07

回答 4 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ在OCR识别的过程中，可能会出现很多干扰信息，需要进行过滤，只提取出自己需要的信息。具体实现方法可能因为不同的OCR引擎和识别场景而有所差异，但一般可以按以下步骤进行：对
在学习python时遇到问题 opencv python 人工智能有问必答
2023-03-13 17:43

回答 6 已采纳 os.listdir列出test_imgs目录下的图片，依次遍历用cv2.imgread读取处理什么的 import os if __name__ == "__main__": images
用python语言实现“连续邮资”问题的回溯算法 python
2022-05-27 20:50

回答 1 已采纳 Max = 4 Prices = [0,1,3,11,15,32] # 单价列表 def Traceback(count): global tmp,flag,Result if c
AI Python编程学习课件-第3章图像识别算法
2024-03-19 14:42

AI Python编程学习课件-第3章图像识别算法主要内容：图像识别算法简介 OpenCV与视频图像处理基于ImageAI的图像识别人脸识别 Tesseract OCR与文本识别基于百度AI的智能图像识别
学习python编写游戏代码的时候遇到了一点小问题 pygame python
2021-10-03 17:46

回答 1 已采纳你写错了！ import sys import pygame def run_game(): pygame.init() screen=pygame.display.set_mode(
冒泡排序升序算法（python 语言实现）以及最终输出问题 python 有问必答
2021-12-24 13:18

回答 1 已采纳示例代码如下 def bubble_sort(array): for i in range(1, len(array)): for j in range(0, len(arr
用python实现网络编程 python 有问必答
2021-07-04 22:34

回答 1 已采纳整体分析分为API调用，web开发，web开发用django或flask就好了
【Python】轻松识别文字，这款Python OCR库支持超过80种语言
2021-10-06 10:05

小白学视觉的博客点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达本文转自|Python大数据分析什么是OCR？有一款软件叫扫描全能王，想必一些小伙伴听过，这是一个OCR集成软件...
python实现圆形识别并标记 python
2021-03-25 22:16

回答 2 已采纳 circles = cv2.HoughCircles(gray,cv2.HOUGH_GRADIENT,1,maxDist, param1,param2,minRadius,maxRadius) 其中
用python语言实现“子集和数”问题的分支限界算法 python
2022-05-28 00:54

回答 2 已采纳 def subset_sum(lst, target): for i in range(1, 2**len(lst)): pick = list(mask(lst, bin(
python编程解决问题 python 有问必答
2021-06-09 20:56

回答 2 已采纳 import random a=[] sum=0 max=0 min=1000 for i in range(20): a.append(random.randint(1,999))
Python实现识别图片内容的方法分析
2020-12-23 14:10

本文实例讲述了Python实现识别图片内容的方法。分享给大家供大家参考，具体如下： python识别图片内容。这里我的环境为windows64位，python2.7.14 需要用到PIL模块和tesseract模块。首先需要安装pip包管理，安装...
如何实现Python识别处理企业微信pc版消息 python
2022-05-23 21:25

回答 3 已采纳接受信息 @app.route('/blackcat/v1/receive_task', methods=['POST', 'GET']) def receive(): try:
Python实现中文OCR识别教程
2023-09-19 16:31

代码之旅创造者的博客在本教程中，我们将使用Python编程语言和一些流行的开源库来实现中文OCR识别。Tesseract是一个开源的OCR引擎，支持多种语言的文字识别。这样，我们就完成了基于Python的中文OCR识别的实现。通过这个简单的教程，你...
数据治理 | 还在人工识别表格呢？Python 调用百度 OCR API 又快又准
2023-10-14 11:09

程序员晓晓的博客往期的实用技能分享中我们介绍过如何OCR识别图片中的文本，也介绍过如何使用 Python 读取（可以复制内容的）PDF 中的表格，将其转为 Excel 表。此时细心的小伙伴会发现一个盲区：我们怎么把不可复制内容的PDF（或...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月3日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月2日

悬赏问题

¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改

在学习Python实现OCR识别的时候遇到问题

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新