不依赖第三方库实现Excel操作及原理剖析

一、原生Python实现Excel文件操作

在Python生态中，标准库虽未直接提供Excel操作模块，但可通过组合openpyxl等开源方案的核心思想，利用内置模块实现基础功能。对于.xlsx格式文件，其本质是符合Office Open XML标准的ZIP压缩包，包含多个XML文件描述工作表结构。

1.1 读取Excel文件（基础实现）

通过解压工具解析.xlsx文件结构，可手动提取数据：

import zipfile
from xml.etree import ElementTree as ET
def read_xlsx_without_lib(file_path):
    with zipfile.ZipFile(file_path) as z:
        # 读取工作表XML（以第一个sheet为例）
        with z.open('xl/worksheets/sheet1.xml') as f:
            xml_data = f.read().decode('utf-8')
        root = ET.fromstring(xml_data)
        data = []
        for row in root.findall('.//{http://schemas.openxmlformats.org/spreadsheetml/2006/main}row'):
            row_data = []
            for cell in row.findall('.//{http://schemas.openxmlformats.org/spreadsheetml/2006/main}c'):
                # 提取单元格值（简化处理，实际需处理数据类型）
                value = cell.get('v') if cell.get('v') is not None else ''
                row_data.append(value)
            data.append(row_data)
    return data

此方法需处理：

XML命名空间解析
单元格数据类型转换（如日期、数字格式）
共享字符串表（xl/sharedStrings.xml）的引用解析
样式与公式的处理

1.2 写入Excel文件（基础实现）

构建符合标准的XML结构并压缩为.xlsx：

import zipfile
from xml.etree.ElementTree import Element, SubElement, tostring
from xml.dom import minidom
def create_simple_xlsx(data, output_path):
    # 创建工作表XML
    ns = '{http://schemas.openxmlformats.org/spreadsheetml/2006/main}'
    worksheet = Element(ns+'worksheet')
    sheet_data = SubElement(worksheet, ns+'sheetData')
    for row_idx, row in enumerate(data, 1):
        row_elem = SubElement(sheet_data, ns+'row', {'r': str(row_idx)})
        for col_idx, cell_value in enumerate(row, 1):
            cell = SubElement(row_elem, ns+'c', {'r': f'{chr(64+col_idx)}{row_idx}', 't': 'inlineStr'})
            is_elem = SubElement(cell, ns+'is')
            t_elem = SubElement(is_elem, ns+'t')
            t_elem.text = str(cell_value)
    # 生成XML字符串并美化
    xml_str = tostring(worksheet, encoding='unicode')
    dom = minidom.parseString(xml_str)
    pretty_xml = dom.toprettyxml(indent='  ')
    # 创建ZIP结构
    with zipfile.ZipFile(output_path, 'w') as z:
        # 必须包含的基础文件
        z.writestr('[Content_Types].xml', '''<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<Types xmlns="http://schemas.openxmlformats.org/package/2006/content-types">
  <Default Extension="xml" ContentType="application/xml"/>
  <Override PartName="/xl/workbook.xml" ContentType="application/vnd.openxmlformats-officedocument.spreadsheetml.sheet.main+xml"/>
  <Override PartName="/xl/worksheets/sheet1.xml" ContentType="application/vnd.openxmlformats-officedocument.spreadsheetml.worksheet+xml"/>
</Types>''')
        z.writestr('xl/_rels/workbook.xml.rels', '''<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<Relationships xmlns="http://schemas.openxmlformats.org/package/2006/relationships">
  <Relationship Id="rId1" Type="http://schemas.openxmlformats.org/officeDocument/2006/relationships/worksheet" Target="/xl/worksheets/sheet1.xml"/>
</Relationships>''')
        z.writestr('xl/workbook.xml', '''<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<workbook xmlns="http://schemas.openxmlformats.org/spreadsheetml/2006/main" xmlns:r="http://schemas.openxmlformats.org/officeDocument/2006/relationships">
  <sheets>
    <sheet name="Sheet1" sheetId="1" r:id="rId1"/>
  </sheets>
</workbook>''')
        z.writestr('xl/worksheets/sheet1.xml', pretty_xml)

完整实现需补充：

工作簿级元数据管理
样式定义与引用
公式计算引擎
大文件流式处理

二、第三方库底层原理剖析

行业常见技术方案通过封装底层协议实现高效操作，其核心机制包括：

2.1 解析引擎架构

主流库采用分层设计：

文件系统抽象层：处理ZIP压缩与文件流
XML解析层：使用SAX/DOM解析器处理Office Open XML
对象模型层：将XML节点映射为Python对象（如Worksheet、Cell）
API接口层：提供用户友好的操作接口

以读取流程为例：

graph TD
    A[打开.xlsx文件] --> B[解压为临时目录]
    B --> C[解析content_types.xml确定文件类型]
    C --> D[加载workbook.xml构建工作簿结构]
    D --> E[按需加载sheetX.xml解析单元格数据]
    E --> F[应用共享字符串表替换引用ID]
    F --> G[转换数据类型为Python原生类型]

2.2 性能优化技术

惰性加载：仅解析访问过的Sheet和单元格
内存池管理：复用XML解析器对象
二进制协议优化：对.xls格式的BIFF协议进行二进制解析
并行处理：多线程解析独立的工作表

2.3 兼容性处理机制

格式降级：将新格式特性转换为旧格式兼容表示
错误恢复：跳过损坏的XML节点并记录警告
样式继承：实现Excel的样式优先级计算逻辑
公式计算：维护公式依赖图支持动态重算

三、技术选型建议

3.1 原生实现的适用场景

学习Excel文件格式规范
极简环境部署（无第三方依赖）
定制化需求（如特殊加密格式）
处理超大规模文件（通过流式XML解析）

3.2 第三方库的优势场景

开发效率优先（减少90%以上代码量）
需要完整功能支持（公式、图表、条件格式等）
跨平台兼容性要求高
企业级应用（经过大规模验证的稳定性）

四、进阶实践方案

对于需要兼顾性能与灵活性的场景，推荐组合方案：

混合架构：用原生模块处理元数据，第三方库处理数据层
缓存层：将频繁访问的工作表缓存为字典结构
异步IO：使用asyncio加速文件读写
类型提示增强：为数据模型添加类型注解

示例：高性能读取框架伪代码

class ExcelReader:
    def __init__(self, path):
        self.zip_archive = zipfile.ZipFile(path)
        self.shared_strings = self._parse_shared_strings()
        self.workbook = self._parse_workbook()
    async def get_sheet_async(self, sheet_name):
        sheet_path = self._get_sheet_path(sheet_name)
        xml_data = await self._read_xml_async(sheet_path)
        return self._parse_sheet(xml_data)
    def _parse_cell(self, cell_elem):
        # 实现单元格解析逻辑
        pass

五、总结

理解Excel文件操作的底层原理，有助于开发者在以下方面做出优化：

精准控制内存使用（避免全文件加载）
实现特殊格式处理（如自定义数字格式）
构建高性能数据处理管道
设计跨平台兼容方案

对于大多数应用场景，推荐使用经过充分验证的第三方库，但在需要深度定制或处理特殊格式时，掌握原生实现原理将成为关键技术优势。实际开发中，可根据项目需求在完全原生实现、轻量级封装、全功能库之间灵活选择。