一、UNION操作符基础原理

1.1 垂直合并的本质

UNION是SQL中实现结果集垂直拼接的核心操作符，其本质是将多个SELECT语句返回的行数据按列对齐后合并。与JOIN操作的水平拼接不同，UNION通过堆叠方式扩展数据维度，适用于需要整合异构但结构相似数据集的场景。

例如，合并两个不同地区的销售记录：

SELECT product_id, region, sales FROM sales_north
UNION
SELECT product_id, region, sales FROM sales_south;

1.2 严格的兼容性要求

UNION对子查询结构有严格约束：

列数一致性：所有SELECT必须返回相同数量的列
数据类型匹配：对应列的数据类型需兼容（如VARCHAR与TEXT可隐式转换）
顺序对应性：列的排列顺序决定最终结果的列顺序

典型错误案例：

-- 错误：列数不匹配
SELECT id, name FROM users 
UNION 
SELECT id FROM admins;
-- 错误：数据类型冲突
SELECT price FROM products  -- DECIMAL类型
UNION 
SELECT 'N/A' FROM discontinued_items;  -- STRING类型

二、去重机制与性能优化

2.1 默认去重行为

UNION内置DISTINCT逻辑，会自动消除重复行。其实现原理涉及排序和比较操作，对大数据集可能产生性能开销。

去重过程示例：

原始结果集1: (1,A), (2,B), (3,C)
原始结果集2: (2,B), (3,C), (4,D)
UNION结果:    (1,A), (2,B), (3,C), (4,D)

2.2 UNION ALL的适用场景

当需要保留所有记录（包括重复项）时，应使用UNION ALL。该操作跳过去重阶段，性能提升可达30%-50%（根据数据分布而定）。

性能对比测试：

-- 测试表包含100万行数据，其中10%重复
-- UNION执行时间：2.4s
SELECT * FROM table1 UNION SELECT * FROM table2;
-- UNION ALL执行时间：1.1s
SELECT * FROM table1 UNION ALL SELECT * FROM table2;

建议场景：

确定无重复数据时
需要统计总记录数时（配合COUNT使用）
大数据量查询优化

三、高级应用技巧

3.1 列名映射规则

最终结果集的列名取自第一个SELECT语句，但可通过AS关键字显式指定：

SELECT product_code AS id, quantity FROM inventory
UNION
SELECT item_number AS id, stock FROM warehouse
ORDER BY id;  -- 按统一列名排序

3.2 复杂数据类型处理

对于LOB类型（CLOB/BLOB）或自定义类型，需确保所有子查询返回相同类型或可隐式转换的类型。某数据库系统可能要求显式转换：

-- 显式类型转换示例
SELECT CAST(description AS VARCHAR(4000)) FROM products
UNION
SELECT CAST(notes AS VARCHAR(4000)) FROM legacy_data;

3.3 排序与分页控制

全局排序应在最后一个SELECT后指定，避免在每个子查询中重复排序：

-- 正确方式
(SELECT * FROM table1 WHERE condition1)
UNION
(SELECT * FROM table2 WHERE condition2)
ORDER BY create_time DESC LIMIT 100;
-- 错误方式（性能差）
(SELECT * FROM table1 WHERE condition1 ORDER BY create_time)
UNION
(SELECT * FROM table2 WHERE condition2 ORDER BY create_time)
LIMIT 100;

四、常见错误与解决方案

4.1 数据类型不兼容错误

错误表现：ERROR: UNION types text and integer cannot be matched

解决方案：

使用CAST显式转换
修改子查询返回兼容类型
检查数据库系统的类型系统文档

4.2 列数不匹配错误

错误表现：All queries combined using a UNION, INTERSECT or EXCEPT operator must have an equal number of expressions in their target lists

解决方案：

使用NULL填充缺失列：

SELECT id, name, address FROM customers
UNION
SELECT user_id, username, NULL FROM users;

4.3 性能瓶颈优化

典型问题：UNION操作导致查询超时

优化策略：

对大数据集改用UNION ALL
在子查询中添加WHERE预过滤
考虑使用临时表存储中间结果
评估是否可用JOIN替代

五、UNION在数据分析中的应用

5.1 多数据源整合

在数据仓库场景中，UNION可合并来自不同业务系统的相似结构数据：

-- 合并线上和线下销售数据
SELECT 'online' as channel, * FROM web_sales
UNION
SELECT 'offline' as channel, * FROM store_sales;

5.2 历史数据迁移

在数据迁移项目中，UNION可组合新旧系统数据：

-- 合并新旧订单系统数据
SELECT * FROM legacy_orders WHERE order_date < '2023-01-01'
UNION
SELECT * FROM new_orders WHERE order_date >= '2023-01-01';

5.3 报表生成优化

通过UNION构建复杂报表的基础数据集：

-- 生成月度销售汇总报表
SELECT 'Q1' as quarter, * FROM jan_sales
UNION
SELECT 'Q1' as quarter, * FROM feb_sales
UNION
SELECT 'Q1' as quarter, * FROM mar_sales
ORDER BY product_category;

六、UNION与相关操作符对比

操作符	功能描述	去重处理	性能影响
UNION	合并结果集并去重	自动去重	较高（排序开销）
UNION ALL	合并结果集保留所有记录	不去重	最低
INTERSECT	返回两个查询的交集	自动去重	高
EXCEPT	返回第一个查询独有的记录	自动去重	高

七、最佳实践总结

明确需求：根据是否需要去重选择UNION或UNION ALL
类型安全：确保所有子查询返回兼容的数据类型
性能优先：大数据量查询优先考虑UNION ALL
结构一致：保持子查询的列数和顺序一致
预过滤：在子查询中尽可能减少数据量
测试验证：对复杂UNION查询进行结果验证

通过合理应用UNION操作符，开发者可以高效解决多数据源整合、历史数据对比等复杂查询场景，在保证数据准确性的同时优化查询性能。在实际项目中，建议结合数据库执行计划分析工具，持续监控和优化UNION查询的性能表现。

SQL UNION操作符深度解析：数据合并与去重实战指南