一、命令概述与核心功能

在Linux系统文本处理工具链中，uniq命令作为基础但强大的组件，专门用于处理相邻重复行。其名称源自”unique”的缩写，核心功能是通过逐行比较实现文本去重。该命令通常与sort命令配合使用，因为uniq仅能检测相邻重复行，而sort可先将文本按行排序，确保重复行相邻排列。

典型应用场景包括：

日志文件清洗：去除重复的错误记录
数据预处理：为后续分析准备唯一值数据集
报表生成：统计重复项出现频率

基础语法结构：

uniq [选项] [输入文件] [输出文件]

当不指定输入文件时，默认从标准输入读取数据；不指定输出文件时，结果输出至标准输出。

二、核心参数详解与实战应用

1. 基础去重功能

默认模式下，uniq会删除所有相邻重复行，仅保留唯一行。例如处理排序后的日志文件：

sort access.log | uniq > unique_access.log

此操作将生成仅包含唯一访问记录的新文件。

2. 重复行统计功能（-c参数）

通过-c参数可在输出行前添加计数信息，直观显示重复频率：

sort error.log | uniq -c

输出示例：

   3 404 Not Found
   1 500 Internal Server Error
   5 403 Forbidden

该功能在分析错误分布时特别有用，可快速定位高频问题。

3. 重复行筛选功能（-d参数）

当需要仅查看重复行时，-d参数可过滤出所有重复记录：

sort transaction.log | uniq -d

结合-c参数可进一步统计重复次数：

sort transaction.log | uniq -dc

4. 字段忽略功能（-f参数）

在处理结构化文本（如CSV）时，可通过-f指定忽略的字段数。例如忽略前2个字段（通常为ID和日期）：

sort data.csv | uniq -f 2

此操作将比较第3字段及之后的内容进行去重。

5. 字符忽略功能（-s参数）

-s参数允许指定从行首开始忽略的字符数。例如忽略每行前10个字符：

sort records.txt | uniq -s 10

当忽略字符数超过行长度时，uniq会使用空字符串进行比较，确保处理逻辑的一致性。

三、高级应用技巧

1. 多参数组合使用

实际场景中常需组合多个参数实现复杂需求。例如统计忽略前20个字符后的重复行及其出现次数：

sort large_file.txt | uniq -s 20 -c

2. 处理大文件优化

对于超过系统内存的大文件，建议使用管道直接处理，避免中间文件生成：

sort -S 50% -T /tmp huge_file.log | uniq -c > result.txt

其中-S 50%指定使用50%可用内存，-T /tmp指定临时文件目录。

3. 本地化处理支持

uniq支持通过LANG环境变量适配不同语言环境的分隔符规则。例如处理中文文本时：

export LANG=zh_CN.UTF-8
sort chinese_data.txt | uniq

四、常见问题与解决方案

1. 非相邻重复行处理

问题：直接使用uniq无法检测非相邻重复行
解决方案：务必先使用sort排序

# 错误示例（无法去重）
uniq unsorted.log > result.log
# 正确做法
sort unsorted.log | uniq > result.log

2. 内存不足错误

问题：处理超大文件时出现内存错误
解决方案：

增加sort的临时空间：sort -T /large_disk
分批处理：将大文件分割后分别处理再合并

3. 特殊字符处理

问题：包含制表符等特殊字符的文本处理异常
解决方案：

使用-w参数指定每行最大比较字符数
预处理文件统一分隔符：tr '\t' ' ' < input.txt | sort | uniq

五、性能优化建议

预排序优化：对已知有序的数据可跳过sort步骤
参数顺序：将限制性强的参数（如-f/-s）放在前面减少比较量
管道缓冲：对高速数据流适当增加管道缓冲区：pv | sort | uniq
并行处理：对可分割文件使用GNU parallel等工具并行处理

六、典型应用场景

1. 日志分析系统

# 统计每日错误类型分布
zcat access_*.log.gz | grep ERROR | awk '{print $6}' | sort | uniq -c

2. 数据清洗流程

# 提取唯一用户ID并计数
cut -d',' -f3 user_data.csv | sort | uniq -c > user_stats.csv

3. 重复记录检测

# 检测数据库导出文件中的重复记录
sort export.sql | uniq -d | tee duplicates.log

通过系统掌握uniq命令的各项功能及组合应用技巧，开发者可显著提升文本处理效率，特别是在日志分析、数据清洗等日常开发任务中发挥重要作用。建议结合实际场景不断实践，逐步掌握这些高效的数据处理模式。

uniq命令详解：文本去重的高效实践指南