如何制作一个发票截取软件

通过税务局批量下载的发票，并不是全部有用的，想要的那部分发票如何批量下载是一个难题，最好是能根据要求给发票图片编号

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2025-07-31 10:33
关注
上午好☀️☀️☀️️
本答案参考通义千问

制作一个发票截取软件，可以通过 Python 实现，主要功能包括：

从税务局下载的发票图片中识别并提取有用信息（如发票代码、号码、金额等）
对发票图片进行编号和分类
批量处理多张发票图像

下面是一个完整的解决方案，包含详细步骤和示例代码。

✅ 一、所需工具与库

OpenCV：用于图像处理（裁剪、灰度化、二值化等）
Pytesseract：OCR文字识别（识别发票上的文字）
Pillow (PIL)：图像处理和保存
os & glob：文件操作和批量读取
re (正则表达式)：提取发票关键信息（如发票代码、号码）

pip install opencv-python pytesseract pillow

⚠️ 注意：安装 Pytesseract 需要先安装 Tesseract OCR 工具。

Windows: Tesseract 安装包
Linux: sudo apt-get install tesseract-ocr
macOS: brew install tesseract

✅ 二、核心功能说明

1. 图像预处理（增强识别效果）

转为灰度图
二值化处理
去噪
裁剪区域（仅保留发票内容）

2. 使用 OCR 提取发票信息

识别发票代码、号码、金额等字段
使用正则表达式匹配关键字段

3. 发票编号与分类

按照识别到的发票代码 + 号码命名文件
保存为指定格式（如：发票_代码_号码.jpg）

✅ 三、完整实现步骤

步骤 1：导入必要的库

import cv2 import numpy as np import pytesseract from PIL import Image import os import re

步骤 2：图像预处理函数

def preprocess_image(image_path): # 读取图像 img = cv2.imread(image_path) # 转为灰度图 gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 二值化处理 _, binary = cv2.threshold(gray, 150, 255, cv2.THRESH_BINARY) # 去噪 kernel = np.ones((3, 3), np.uint8) opening = cv2.morphologyEx(binary, cv2.MORPH_OPEN, kernel, iterations=2) return opening

步骤 3：OCR 识别发票信息

def extract_invoice_info(image_path): # 预处理 processed_img = preprocess_image(image_path) # 保存临时图像 temp_path = "temp.jpg" cv2.imwrite(temp_path, processed_img) # 使用 pytesseract 进行 OCR 识别 text = pytesseract.image_to_string(Image.open(temp_path), lang='chi_sim') # 正则表达式提取发票信息 invoice_code_match = re.search(r'发票代码：(\d+)', text) invoice_number_match = re.search(r'发票号码：(\d+)', text) total_amount_match = re.search(r'价税合计：([\d,.]+)', text) invoice_code = invoice_code_match.group(1) if invoice_code_match else "未知" invoice_number = invoice_number_match.group(1) if invoice_number_match else "未知" total_amount = total_amount_match.group(1) if total_amount_match else "未知" return { "code": invoice_code, "number": invoice_number, "amount": total_amount }

步骤 4：批量处理发票图片

def batch_process_invoices(input_folder, output_folder): if not os.path.exists(output_folder): os.makedirs(output_folder) for filename in os.listdir(input_folder): if filename.lower().endswith(('.png', '.jpg', '.jpeg')): image_path = os.path.join(input_folder, filename) info = extract_invoice_info(image_path) # 构建新文件名 new_filename = f"发票_{info['code']}_{info['number']}.jpg" new_path = os.path.join(output_folder, new_filename) # 复制原图到输出目录 os.rename(image_path, new_path) print(f"已处理: {filename} -> {new_filename}")

步骤 5：运行程序

if __name__ == "__main__": input_folder = "invoices" # 输入发票图片文件夹 output_folder = "processed_invoices" # 输出文件夹 batch_process_invoices(input_folder, output_folder)

✅ 四、优化建议

| 优化点 | 说明 | |--------|------| | 图像定位 | 使用轮廓检测或模板匹配来定位发票区域 | | 多语言支持 | 若发票含英文，可使用 lang='eng' 或 lang='chi_sim+eng' | | 错误处理 | 添加异常捕获机制，避免因识别失败导致程序崩溃 | | 结果导出 | 将识别结果导出为 CSV 文件便于后续分析 |

✅ 五、总结

通过上述步骤，你可以构建一个发票截取与编号软件，实现以下目标：

自动识别发票关键信息
对发票图片进行编号和分类
批量处理多张发票图片

重点总结：

图像预处理 是提升 OCR 准确率的关键。
正则表达式 可有效提取结构化数据。
批量处理 提高效率，适用于大量发票场景。

如需进一步扩展，可以结合 PDF 解析 或 API 接口 与税务局系统对接，实现更智能化的发票管理。需要我帮你写 API 接口部分吗？
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python-PDF发票截图工具GUI版
2025-09-22 11:09

这是一个基于Python和tkinter开发的PDF批量截图工具，提供了友好的图形用户界面，可以批量处理PDF文件并将每一页转换为高质量的PNG图片。该工具特别适用于需要批量处理大量PDF文件的场景，如发票处理、文档归档等。 ...
国家税务总局全国增值税发票查验平台python实现
2023-09-04 15:44

python利用execjs运行js来还原平台加密的过程。文件介绍： gc.py #主程序 fqlx.js #fqlx的加密 key9.js # key9的加密 quan.js #flwq39的加密主要是破解js加密的部分，所以验证码这边就没有特殊处理，只是显示出来...
Python-自动生成通讯发票截图的小程序
2019-08-12 07:05

标题 "Python-自动生成通讯发票截图的小程序" 描述了一个使用Python编程语言创建的应用，该应用主要用于自动化生成通讯发票的截图。这个小程序的核心功能是基于一个预设的发票模板，通过指定发票的起始和结束号码，...
python 提取增值税电子发票信息
2023-06-07 16:24

李觀觀的博客 python提取增值税发票信息
python提取电子发票_Python办公自动化—电子发票台账制作自动化（3）
2021-01-14 06:29

AntiBolshevism的博客创建excel文件并简单设置格式用以保存发票数据用wb =...
办公利器！用Python批量识别发票并录入到Excel表格_python识别发票
2024-04-26 19:11

2401_84140428的博客 ① Python所有方向的学习路线图，清楚各个方向要学什么东西② 600多节Python课程视频，涵盖必备基础、爬虫和数据分析③ 100多个Python实战案例，含50个超大型项目详解，学习不再是只会理论④ 20款主流手游迫解爬虫...
python ocr 识别发票_在Python中使用Tesseract进行OCR识别
2020-11-30 01:49

weixin_39745933的博客然后我们通过一些小图片示例去应用Tesseract测试和评估这个OCR引擎的性能。我们的结论显示，Tesseract在前景文本和背景色区分的非常清晰的图片上工作非常好。实际上，保证这些类型的分割可能极具挑战性。因此，我们...
Python-django企业财务发票管理系统 bw02m
2024-09-26 22:32

QQ_402205496的博客 Flask框架的主要特征是核心构成比较简单，但具有很强的扩展性和兼容性，程序员可以使用Python语言快速实现一个网站或Web服务。一般情况下，它不会指定数据库和模板引擎等对象，用户可以根据需要自己选择各种数据库。...
Python实现增值税发票OCR(带源码)
2022-08-31 16:30

egowell的博客 Python实现增值税发票OCR(带源码)
python发票打印程序_用python打印正确的票据生成程序
2020-12-08 17:08

weixin_39631953的博客对于用python编程相对比较陌生，感谢您对我在另一个python项目上的上一个问题提供的所有快速帮助。无论如何，我用python为一个项目编写了一个新程序，该程序生成了一个餐饮场所的账单。这是我下面的代码，一切运行...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月31日

如何制作一个发票截取软件

4条回答 默认 最新

✅ 一、所需工具与库

✅ 二、核心功能说明

1. 图像预处理（增强识别效果）

2. 使用 OCR 提取发票信息

3. 发票编号与分类

✅ 三、完整实现步骤

步骤 1：导入必要的库

步骤 2：图像预处理函数

步骤 3：OCR 识别发票信息

步骤 4：批量处理发票图片

步骤 5：运行程序

✅ 四、优化建议

✅ 五、总结

问题事件

4条回答默认最新