一、cnocr简介与竖排文字识别核心挑战

cnocr是由Breezedeus团队开发的开源OCR工具，专注于中文场景识别，支持简体和繁体字符集。其核心优势在于对复杂排版（如竖排、混合排版）的优化处理能力。竖排文字识别面临两大挑战：

排版方向处理：需通过算法判断文字排列方向（自上而下或自右而左），并调整识别逻辑；
字符集兼容性：需同时支持简体（GB2312）和繁体（Big5）字符集的准确识别。

cnocr通过预训练模型和方向检测模块解决上述问题。其最新版本（如v2.2+）内置了竖排识别专用模型，可直接调用。

二、环境准备与依赖安装

1. 基础环境要求

Python版本：3.7及以上（推荐3.8-3.10）
操作系统：Windows/Linux/macOS（需支持CUDA的GPU环境以加速推理）

2. 依赖安装步骤

# 创建虚拟环境（推荐）
python -m venv cnocrenv
source cnocrenv/bin/activate  # Linux/macOS
# cnocrenv\Scripts\activate  # Windows
# 安装cnocr（含GPU支持）
pip install cnocr[gpu]  # 如需CPU版本，去掉[gpu]
# 验证安装
python -c "import cnocr; print(cnocr.__version__)"

关键点：

GPU版本需提前安装CUDA和cuDNN（版本匹配参考PyTorch官方文档）；
如遇依赖冲突，可使用pip install --upgrade --force-reinstall cnocr强制重装。

三、竖排文字识别全流程

1. 图像预处理

竖排文本识别前需完成以下预处理：

方向校正：使用OpenCV检测文本主方向并旋转至水平（可选，cnocr v2.2+可自动处理）；
二值化：增强字符与背景对比度（推荐使用自适应阈值法）；
分块切割：将长竖排文本分割为单列（每列宽度≈字符平均宽度×1.5）。

示例代码（图像预处理）：

import cv2
import numpy as np
def preprocess_vertical_text(img_path):
    # 读取图像
    img = cv2.imread(img_path, cv2.IMREAD_GRAYSCALE)
    # 自适应二值化
    binary = cv2.adaptiveThreshold(
        img, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, 
        cv2.THRESH_BINARY, 11, 2
    )
    # 形态学操作（可选，去除噪点）
    kernel = np.ones((2,2), np.uint8)
    cleaned = cv2.morphologyEx(binary, cv2.MORPH_CLOSE, kernel)
    return cleaned

2. 模型选择与参数配置

cnocr提供两类竖排识别模型：

通用模型：densenet_lite_136-gru（默认，支持简繁混合）；
专用模型：densenet_lite_136-gru-vertical（优化竖排场景）。

参数配置要点：

from cnocr import CnOcr
# 初始化识别器（竖排专用）
ocr = CnOcr(
    rec_model_name='densenet_lite_136-gru-vertical',  # 竖排模型
    context='gpu',  # 或'cpu'
    lang='ch_sim_tra',  # 简繁混合字符集
    det_model_name='db_mv3'  # 检测模型（可选）
)

关键参数说明：

lang：支持ch_sim（简体）、ch_tra（繁体）、ch_sim_tra（混合）；
rec_model_name：竖排模型需明确指定后缀-vertical；
det_model_name：如需自动检测文本区域，可指定检测模型（如db_mv3）。

3. 竖排文本识别实现

方法一：单列竖排识别（推荐）

将竖排文本按列分割后逐列识别：

def recognize_vertical_columns(img_path, column_width=30):
    # 预处理
    img = preprocess_vertical_text(img_path)
    h, w = img.shape
    # 按列分割（假设列宽为30像素）
    columns = []
    for x in range(0, w, column_width):
        col = img[:, x:x+column_width]
        if col.shape[1] < column_width:  # 补全最后一列
            pad_width = column_width - col.shape[1]
            col = np.pad(col, ((0,0), (0,pad_width)), 'constant')
        columns.append(col)
    # 逐列识别
    results = []
    for col in columns:
        # 旋转90度使竖排变横排（模拟cnocr内部处理）
        rotated = cv2.rotate(col, cv2.ROTATE_90_CLOCKWISE)
        res = ocr.ocr(rotated)
        results.extend([line[1] for line in res])  # 提取文本
    return ' '.join(results)

方法二：整图竖排识别（依赖模型自动处理）

直接调用竖排模型识别整图（适用于规则排版）：

def recognize_vertical_image(img_path):
    img = preprocess_vertical_text(img_path)
    ocr = CnOcr(rec_model_name='densenet_lite_136-gru-vertical')
    res = ocr.ocr(img)
    # 竖排结果需按列重组（示例简化处理）
    vertical_text = []
    for line in res:
        vertical_text.append(line[1])  # 假设模型已按竖排顺序输出
    return '\n'.join(vertical_text)  # 每列一行

4. 简繁中文混合处理

cnocr通过lang='ch_sim_tra'参数自动处理简繁转换。如需强制输出特定字体，可在后处理阶段转换：

from zhconv import convert  # 需安装pip install zhconv
def postprocess_text(text, target_lang='sim'):
    # sim:简体, tra:繁体
    return convert(text, target_lang)
# 示例
mixed_text = "這是簡體和繁體的混合文本"
simplified = postprocess_text(mixed_text, 'sim')  # 转为简体

四、性能优化与常见问题

1. 识别准确率提升技巧

图像质量：分辨率建议≥300dpi，避免模糊或倾斜；
模型微调：使用自定义数据集微调模型（参考cnocr文档）；
后处理规则：添加正则表达式修正常见错误（如“貝”→“贝”）。

2. 常见问题解决

问题1：竖排文字被截断
解决：调整column_width参数或使用更小的分块尺寸。
问题2：繁体字识别错误
解决：检查lang参数是否为ch_sim_tra，或单独使用ch_tra模型。
问题3：GPU内存不足
解决：降低batch_size（通过CnOcr(rec_batch_size=4)设置）。

五、完整代码示例

from cnocr import CnOcr
import cv2
import numpy as np
def main():
    # 1. 初始化OCR
    ocr = CnOcr(
        rec_model_name='densenet_lite_136-gru-vertical',
        lang='ch_sim_tra',
        context='gpu'
    )
    # 2. 预处理图像
    img_path = 'vertical_text.jpg'
    img = cv2.imread(img_path, cv2.IMREAD_GRAYSCALE)
    _, binary = cv2.threshold(img, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
    # 3. 分列识别（简化版）
    h, w = binary.shape
    column_width = 25  # 根据实际文本调整
    results = []
    for x in range(0, w, column_width):
        col = binary[:, x:x+column_width]
        if col.size == 0:
            continue
        # 旋转90度模拟竖排
        rotated = cv2.rotate(col, cv2.ROTATE_90_CLOCKWISE)
        res = ocr.ocr(rotated)
        column_text = ' '.join([line[1] for line in res])
        results.append(column_text)
    # 4. 输出结果
    final_text = '\n'.join(results)
    print("识别结果：\n", final_text)
if __name__ == '__main__':
    main()

六、总结与扩展应用

cnocr的竖排文字识别功能通过专用模型和方向感知算法，有效解决了古籍、文献等场景的排版问题。开发者可通过以下方式扩展应用：

批量处理：结合多线程/多进程加速大规模识别；
API封装：使用FastAPI或Flask构建在线识别服务；
移动端适配：通过ONNX Runtime部署至Android/iOS。

推荐资源：

cnocr官方文档：https://github.com/breezedeus/cnocr
竖排文本数据集：CASIA-OLRW（古籍数据集）
性能优化工具：NVIDIA Nsight Systems（GPU分析）

如何高效使用cnocr实现竖排文字识别：简繁中文全流程指南