Python验证码识别：利用pytesseract识别简单图形验证码

验证码作为网站安全防护的重要手段，广泛应用于用户注册、登录等场景。对于开发者而言，自动化测试或数据采集时绕过简单图形验证码的需求日益增加。本文将系统介绍如何使用Python的pytesseract库（基于Tesseract OCR引擎）实现简单图形验证码的识别，涵盖环境配置、图像预处理、核心代码实现及优化策略。

一、环境准备与依赖安装

1.1 基础环境要求

Python 3.6+（推荐3.8+版本）
OpenCV（用于图像处理）
Pillow（图像处理库）
pytesseract（Tesseract OCR的Python封装）

1.2 依赖安装步骤

# 安装基础库
pip install opencv-python pillow pytesseract
# Windows用户需额外安装Tesseract OCR引擎
# 下载地址：https://github.com/UB-Mannheim/tesseract/wiki
# 安装后需配置环境变量，指向tesseract.exe路径

1.3 验证环境

import pytesseract
from PIL import Image
# 指定Tesseract路径（Windows用户需配置）
# pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
# 测试识别
test_img = Image.open('test.png')
print(pytesseract.image_to_string(test_img))

二、验证码图像预处理技术

直接使用原始验证码图像识别效果往往较差，需通过预处理增强文字特征。以下是关键预处理步骤：

2.1 灰度化转换

import cv2
def convert_to_gray(img_path):
    img = cv2.imread(img_path)
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    return gray

原理：将彩色图像转为灰度图，减少颜色干扰，提升处理效率。

2.2 二值化处理

def binary_threshold(gray_img):
    # 自适应阈值处理
    binary = cv2.adaptiveThreshold(
        gray_img, 255, 
        cv2.ADAPTIVE_THRESH_GAUSSIAN_C, 
        cv2.THRESH_BINARY, 11, 2
    )
    return binary

效果：通过设定阈值将图像转为黑白二值图，强化文字与背景的对比度。

2.3 降噪处理

def remove_noise(binary_img):
    # 中值滤波去噪
    denoised = cv2.medianBlur(binary_img, 3)
    return denoised

应用场景：消除图像中的孤立噪点，避免被误识别为字符。

2.4 形态学操作

def morphological_ops(img):
    kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (3,3))
    # 先膨胀后腐蚀（闭运算）
    closed = cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel)
    return closed

作用：连接断裂的文字笔画，填补字符内部空洞。

三、核心识别代码实现

3.1 基础识别流程

import pytesseract
from PIL import Image
def recognize_captcha(img_path):
    # 加载图像
    img = Image.open(img_path)
    # 直接识别（效果较差）
    raw_text = pytesseract.image_to_string(img)
    print("原始识别结果:", raw_text)
    # 预处理后识别
    # 此处应插入预处理步骤（如上述函数）
    # processed_img = ...（预处理流程）
    # optimized_text = pytesseract.image_to_string(processed_img)
    # return optimized_text
    return raw_text  # 示例中省略预处理

3.2 配置Tesseract参数

def advanced_recognize(img_path):
    custom_config = r'--oem 3 --psm 6'
    # oem=3: 默认OCR引擎模式
    # psm=6: 假设图像为统一文本块
    img = Image.open(img_path)
    text = pytesseract.image_to_string(img, config=custom_config)
    return text

参数说明：

--oem 3：使用默认OCR引擎
--psm 6：将图像视为单个文本块（适用于简单验证码）

四、识别效果优化策略

4.1 针对字符粘连的优化

def split_connected_chars(img_path):
    img = cv2.imread(img_path, 0)
    # 查找轮廓
    contours, _ = cv2.findContours(
        img, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE
    )
    char_images = []
    for cnt in contours:
        x,y,w,h = cv2.boundingRect(cnt)
        char_img = img[y:y+h, x:x+w]
        char_images.append(char_img)
    # 对每个字符区域单独识别
    results = []
    for char in char_images:
        text = pytesseract.image_to_string(
            char, 
            config='--psm 10 --oem 3'  # psm=10: 单字符模式
        )
        results.append(text.strip())
    return ''.join(results)

4.2 多帧融合技术（适用于动态验证码）

def fuse_multiple_frames(img_paths):
    # 假设有多个帧的验证码
    accumulator = None
    for path in img_paths:
        img = cv2.imread(path, 0)
        if accumulator is None:
            accumulator = img.copy()
        else:
            accumulator = cv2.bitwise_or(accumulator, img)
    # 对融合后的图像识别
    text = pytesseract.image_to_string(
        Image.fromarray(accumulator),
        config='--psm 7'  # psm=7: 单行文本模式
    )
    return text

五、完整案例演示

5.1 案例：识别4位数字验证码

import cv2
import pytesseract
from PIL import Image
def recognize_digit_captcha(img_path):
    # 1. 加载图像
    img = cv2.imread(img_path)
    # 2. 预处理
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    binary = cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY_INV)[1]
    # 3. 查找轮廓并分割字符
    contours, _ = cv2.findContours(
        binary, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE
    )
    # 按x坐标排序（从左到右）
    contours = sorted(contours, key=lambda x: cv2.boundingRect(x)[0])
    # 4. 识别每个字符
    result = []
    for cnt in contours:
        x,y,w,h = cv2.boundingRect(cnt)
        char_img = binary[y:y+h, x:x+w]
        # 调整大小（Tesseract对小图像敏感）
        char_img = cv2.resize(char_img, (30,30))
        text = pytesseract.image_to_string(
            Image.fromarray(char_img),
            config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789'
        )
        result.append(text.strip())
    return ''.join(result)
# 使用示例
captcha_text = recognize_digit_captcha('captcha.png')
print("识别结果:", captcha_text)

六、局限性分析与改进方向

6.1 当前技术局限性

复杂背景干扰：当验证码包含扭曲线条、干扰点时识别率下降
字符变形：严重扭曲的字符无法被正确识别
多语言支持：默认仅支持英文数字，中文需额外训练数据

6.2 改进建议

结合深度学习：使用CRNN等模型训练定制化识别器
多模型融合：结合pytesseract与模板匹配提高准确率
人工干预机制：对低置信度结果引入人工校验

七、最佳实践总结

预处理优先：90%的识别问题可通过预处理解决
参数调优：根据验证码特点调整--psm和--oem参数
渐进式优化：从简单验证码开始，逐步处理复杂场景
合法合规使用：仅用于测试自有系统或获得授权的场景

通过系统化的图像预处理和参数优化，pytesseract可有效识别结构简单的图形验证码。对于更复杂的场景，建议结合深度学习技术构建定制化解决方案。开发者在实际应用中应严格遵守法律法规，确保技术使用的合规性。

Python验证码识别：pytesseract实战指南