Python实现增值税发票批量识别与表格导出（EXE封装指南）

在财务、审计等场景中，增值税发票的批量识别与数据整理是一项耗时且易出错的工作。传统方式依赖人工录入，效率低下且存在人为错误风险。本文将介绍如何使用Python结合OCR技术实现增值税发票的批量识别，并将结果自动导出至Excel表格，最终封装为独立的EXE可执行文件，便于非技术人员使用。

一、技术选型与工具准备

1.1 OCR识别引擎选择

增值税发票的识别需高精度提取关键字段（如发票代码、号码、日期、金额等）。行业常见技术方案包括：

通用OCR引擎：如Tesseract OCR，支持多语言但需针对发票模板优化。
专用发票识别API：某云厂商提供的结构化识别服务，可直接返回发票字段，但需网络请求且可能产生费用。
本地化部署方案：基于深度学习的OCR模型（如PaddleOCR），支持离线运行且可定制。

推荐方案：
若需完全离线运行，选择PaddleOCR（中文识别效果优秀）；若允许网络请求且追求高精度，可集成某云厂商的发票识别API。本文以PaddleOCR为例，兼顾灵活性与成本。

1.2 辅助工具

OpenCV：用于发票图像预处理（如旋转校正、二值化）。
pandas：处理识别结果并生成Excel表格。
PyInstaller：将Python脚本封装为EXE文件。

二、核心实现步骤

2.1 发票图像预处理

原始发票图像可能存在倾斜、噪点等问题，需通过OpenCV进行校正：

import cv2
import numpy as np
def preprocess_image(image_path):
    # 读取图像
    img = cv2.imread(image_path)
    # 转换为灰度图
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    # 二值化处理
    _, binary = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
    # 边缘检测与轮廓查找
    edges = cv2.Canny(binary, 50, 150)
    contours, _ = cv2.findContours(edges, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    # 筛选最大轮廓（假设为发票区域）
    largest_contour = max(contours, key=cv2.contourArea)
    # 获取旋转角度并校正
    rect = cv2.minAreaRect(largest_contour)
    angle = rect[-1]
    if angle < -45:
        angle = -(90 + angle)
    else:
        angle = -angle
    (h, w) = img.shape[:2]
    center = (w // 2, h // 2)
    M = cv2.getRotationMatrix2D(center, angle, 1.0)
    rotated = cv2.warpAffine(img, M, (w, h), flags=cv2.INTER_CUBIC, borderMode=cv2.BORDER_REPLICATE)
    return rotated

2.2 OCR识别与字段提取

使用PaddleOCR识别发票关键字段，需定义字段匹配规则：

from paddleocr import PaddleOCR
import re
def extract_invoice_fields(image_path):
    # 初始化PaddleOCR（中英文模型）
    ocr = PaddleOCR(use_angle_cls=True, lang="ch")
    # 识别图像
    result = ocr.ocr(image_path, cls=True)
    # 提取文本并匹配字段
    fields = {
        "发票代码": None,
        "发票号码": None,
        "开票日期": None,
        "金额": None
    }
    for line in result[0]:
        text = line[1][0]
        # 匹配发票代码（10位数字）
        if re.fullmatch(r"\d{10}", text) and not fields["发票代码"]:
            fields["发票代码"] = text
        # 匹配发票号码（8位数字）
        elif re.fullmatch(r"\d{8}", text) and not fields["发票号码"]:
            fields["发票号码"] = text
        # 匹配开票日期（格式：YYYY-MM-DD或YYYY年MM月DD日）
        elif re.fullmatch(r"\d{4}[-年]\d{1,2}[-月]\d{1,2}[日]?", text) and not fields["开票日期"]:
            fields["开票日期"] = text
        # 匹配金额（含人民币符号或“元”）
        elif re.search(r"￥|元|人民币", text) and not fields["金额"]:
            amount_str = re.sub(r"[^\d.]", "", text)
            if amount_str:
                fields["金额"] = float(amount_str)
    return fields

2.3 批量处理与Excel导出

通过循环处理多张发票，并使用pandas生成结构化表格：

import os
import pandas as pd
def batch_process_invoices(input_folder, output_excel):
    all_fields = []
    for filename in os.listdir(input_folder):
        if filename.lower().endswith((".png", ".jpg", ".jpeg")):
            image_path = os.path.join(input_folder, filename)
            # 预处理图像
            processed_img = preprocess_image(image_path)
            # 临时保存预处理后的图像供OCR使用
            temp_path = "temp_processed.jpg"
            cv2.imwrite(temp_path, processed_img)
            # 提取字段
            fields = extract_invoice_fields(temp_path)
            fields["文件名"] = filename
            all_fields.append(fields)
            os.remove(temp_path)  # 清理临时文件
    # 生成DataFrame并导出
    df = pd.DataFrame(all_fields)
    df.to_excel(output_excel, index=False)
    print(f"结果已保存至 {output_excel}")

三、EXE封装与发布

3.1 使用PyInstaller打包

安装PyInstaller：

pip install pyinstaller pandas openpyxl paddleocr opencv-python

创建主脚本（如main.py），调用上述函数。
执行打包命令：
```
pyinstaller --onefile --windowed main.py
```
- --onefile：生成单个EXE文件。
- --windowed：隐藏命令行窗口（适合GUI应用）。

3.2 注意事项

依赖管理：确保所有依赖库（如PaddleOCR的模型文件）被正确打包。
路径问题：在代码中使用相对路径或动态获取当前目录。
性能优化：若处理大量发票，可添加多线程支持（如concurrent.futures）。

四、最佳实践与扩展

4.1 错误处理与日志记录

添加异常捕获和日志文件，便于排查问题：

import logging
logging.basicConfig(filename="invoice_processor.log", level=logging.INFO)
def safe_extract_fields(image_path):
    try:
        return extract_invoice_fields(image_path)
    except Exception as e:
        logging.error(f"处理 {image_path} 时出错: {str(e)}")
        return None

4.2 扩展功能

支持PDF发票：使用pdf2image将PDF转换为图像后再处理。
自定义模板：针对不同发票版式调整字段匹配规则。
GUI界面：使用PyQt或Tkinter构建可视化操作界面。

五、总结

本文通过Python实现了增值税发票的批量识别与表格导出，核心步骤包括图像预处理、OCR识别、数据整理及EXE封装。该方案具有以下优势：

离线运行：无需依赖网络，适合内网环境。
高灵活性：可自定义字段匹配规则以适应不同发票格式。
易用性：封装为EXE后，非技术人员可直接使用。

开发者可根据实际需求进一步优化识别精度或扩展功能，例如集成某云厂商的API提升复杂场景下的识别率，或添加数据库存储支持。