一、技术背景与需求分析

在财务、销售等业务场景中，经常需要批量处理结构相同的Excel报表文件。例如每月生成的100+份销售统计表，每份文件包含相同格式的原始数据，但需要单独打印并确保：

所有报表的打印格式完全一致
自动添加数据汇总行（如求和/平均值）
优化打印布局避免内容截断
全程无需人工干预

传统手动操作方式存在三大痛点：

重复性操作耗时（处理100个文件约需2-3小时）
人工调整格式易出错
无法保证处理一致性

本方案通过自动化脚本实现全流程处理，将单文件处理时间压缩至秒级，且支持动态适配不同数据量级的报表。

二、核心处理流程设计

2.1 文件系统交互模块

import os
from tkinter import filedialog
def select_folder():
    """通过GUI对话框选择目标文件夹"""
    root = tk.Tk()
    root.withdraw()  # 隐藏主窗口
    folder_path = filedialog.askdirectory(title="选择包含Excel文件的目录")
    return folder_path if folder_path else sys.exit("未选择有效目录")

该模块使用标准文件对话框实现跨平台目录选择，相比硬编码路径更符合安全规范。建议添加路径有效性验证逻辑，确保后续处理不会因无效路径中断。

2.2 Excel文件遍历引擎

import glob
def get_excel_files(folder_path):
    """获取目录下所有Excel文件（支持.xlsx和.xls）"""
    patterns = [
        os.path.join(folder_path, "*.xlsx"),
        os.path.join(folder_path, "*.xls")
    ]
    file_list = []
    for pattern in patterns:
        file_list.extend(glob.glob(pattern))
    return file_list

通过多模式匹配确保兼容不同Excel版本文件，建议添加文件数量校验（如超过500个文件时提示确认继续）。

2.3 智能数据处理引擎

2.3.1 数据区域定位算法

def locate_data_range(sheet):
    """动态定位数据区域（支持非连续数据）"""
    used_range = sheet.used_range
    last_row = used_range.last_cell.row
    last_col = used_range.last_cell.column
    # 验证数据有效性（跳过全空行/列）
    while last_row > 1 and all(cell.value is None for cell in sheet.range(f"A{last_row}:{chr(64+last_col)}{last_row}")):
        last_row -= 1
    return last_row, last_col

该算法通过逆向扫描排除全空行，比直接使用used_range更精准。建议添加数据类型校验，确保求和操作仅针对数值列。

2.3.2 动态求和行生成

def add_summary_row(sheet, last_row, last_col):
    """添加智能求和行并保持格式一致"""
    # 确定求和起始列（从第7列开始）
    start_col = max(7, 1)  # 确保不小于1
    # 插入新行
    summary_row = last_row + 1
    sheet.rows[summary_row].insert()
    # 复制格式
    last_data_row = sheet.range(f"1:{last_row}")
    summary_format = sheet.range(f"{last_row}:{last_row}")
    summary_format.copy(destination=sheet.range(f"{summary_row}:{summary_row}"))
    # 生成求和公式
    for col in range(start_col, last_col + 1):
        col_letter = chr(64 + col)
        formula = f"=SUM({col_letter}2:{col_letter}{last_row})"
        sheet.range(f"{col_letter}{summary_row}").formula = formula

该实现包含三个关键优化：

动态起始列控制（从第7列开始）
格式精确复制（包括字体、边框等）
公式动态生成（自动适应数据范围）

2.4 打印优化模块

2.4.1 智能页面设置

def optimize_print_settings(sheet):
    """自动配置最佳打印参数"""
    # 页面方向设置
    print_settings = sheet.api.PageSetup
    print_settings.Orientation = 2  # 2=横向
    # 缩放设置
    print_settings.Zoom = False
    print_settings.FitToPagesWide = 1
    print_settings.FitToPagesTall = 1
    # 边距优化（单位：磅）
    print_settings.LeftMargin = sheet.api.InchesToPoints(0.25)
    print_settings.RightMargin = sheet.api.InchesToPoints(0.25)

该配置确保：

横向打印最大化利用纸张空间
强制缩放至1页宽×1页高
统一边距防止内容被裁剪

2.4.2 列宽自适应调整

def auto_adjust_columns(sheet, last_col):
    """根据内容自动调整列宽"""
    for col in range(1, last_col + 1):
        col_range = sheet.range(sheet.cells(1, col), sheet.cells(100, col))  # 假设数据不超过100行
        max_width = 0
        for cell in col_range:
            if cell.value:
                # 估算文本显示宽度（经验系数1.2）
                current_width = len(str(cell.value)) * 1.2
                if current_width > max_width:
                    max_width = current_width
        # 设置列宽（单位：字符宽度）
        sheet.columns[col].column_width = min(max(max_width, 5), 20)  # 限制在5-20字符范围内

该算法通过内容长度估算最佳列宽，避免：

列宽过小导致内容截断
列宽过大造成纸张浪费
极端值影响整体布局

2.5 批量处理执行框架

def batch_process_and_print(folder_path):
    """主处理流程"""
    excel_files = get_excel_files(folder_path)
    if not excel_files:
        print("未找到Excel文件，处理终止")
        return
    # 初始化Excel应用对象（建议使用Application对象池）
    excel_app = Application()
    excel_app.visible = False  # 后台运行
    try:
        for file_path in excel_files:
            workbook = excel_app.books.open(file_path)
            sheet = workbook.sheets[0]  # 处理第一个工作表
            # 数据处理阶段
            last_row, last_col = locate_data_range(sheet)
            add_summary_row(sheet, last_row, last_col)
            # 打印优化阶段
            optimize_print_settings(sheet)
            auto_adjust_columns(sheet, last_col)
            # 执行打印（可添加打印预览逻辑）
            sheet.print_out()
            workbook.close()  # 不保存更改
    except Exception as e:
        print(f"处理过程中发生错误: {str(e)}")
    finally:
        excel_app.quit()

关键安全设计：

使用try-except捕获异常
确保Excel对象正确释放
处理失败时不影响其他文件

三、高级优化建议

3.1 多线程处理架构

对于超大规模文件集（>500个），建议采用生产者-消费者模式：

from concurrent.futures import ThreadPoolExecutor
def process_single_file(file_path):
    """单文件处理线程函数"""
    # 实现同上，省略...
def parallel_processing(folder_path, max_workers=4):
    """多线程批量处理"""
    files = get_excel_files(folder_path)
    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        executor.map(process_single_file, files)

3.2 日志与监控系统

建议集成日志模块记录处理详情：

import logging
logging.basicConfig(
    filename='batch_print.log',
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s'
)
# 在关键节点添加日志
logging.info(f"开始处理文件: {file_path}")

3.3 异常恢复机制

对于中断处理的情况，可添加断点续传功能：

记录已处理文件列表
启动时自动跳过已完成文件
支持手动指定继续位置

四、实施注意事项

环境依赖：需安装对应版本的Excel自动化组件（如win32com）
权限要求：确保脚本有文件读写和打印机访问权限
测试验证：建议先在测试环境验证5-10个文件
性能调优：根据硬件配置调整线程数（通常CPU核心数×1.5）
兼容性：测试不同Excel版本（2010/2016/365等）的兼容性

本方案通过模块化设计实现高可维护性，核心处理逻辑与业务逻辑分离，便于根据实际需求扩展功能（如添加数据校验、生成处理报告等）。实际部署时建议封装为可执行程序，降低最终用户的使用门槛。

批量处理Excel工作簿打印：自动化流程设计与实现