一、CPU性能诊断与异常处理

1.1 基础信息采集

CPU作为系统运算核心，其状态直接影响整体性能。通过以下命令可获取完整硬件参数：

# 显示CPU架构、核心数、线程数等拓扑信息
lscpu | grep -E 'Model name|CPU(s)|Core(s)|Thread(s)'
# 详细参数查询（适用于所有Linux发行版）
cat /proc/cpuinfo | grep -m1 'model name'  # 显示型号
cat /proc/cpuinfo | grep 'processor' | wc -l  # 统计逻辑核心数

1.2 动态性能监控

实时监控工具可帮助识别突发性能问题：

top/htop：交互式进程监控，按1展开显示各核心使用率

mpstat：专业级统计工具，建议安装sysstat包后使用：

mpstat -P ALL 1 5  # 每秒采样1次，共5次，显示所有核心数据

1.3 典型故障分析

单核满载：通过top -H查看线程级占用，结合strace -p <PID>跟踪系统调用
整体负载高：使用pidstat -u 1定位高CPU消耗进程，注意区分用户态/内核态消耗
频率异常：检查cpufreq-info（需安装cpufrequtils）确认是否触发节能策略

二、内存系统深度诊断

2.1 资源使用分析

内存问题常表现为系统变慢或OOM（Out of Memory），需分层排查：

free -h  # 显示总内存/已用/缓存/可用容量
cat /proc/meminfo | grep -E 'MemTotal|MemFree|Buffers|Cached|Swap'

2.2 进程级占用定位

# 按内存占用排序显示前10进程（推荐）
ps aux --sort=-%mem | head -n 10
# 更精确的内存统计（需安装smem）
smem -s pss -k -r | head -n 15

2.3 内存泄漏检测

生产环境检测：使用valgrind --tool=memcheck跟踪程序内存分配（需重新编译带调试符号的程序）
长期监控方案：部署/usr/bin/vmstat 1持续记录内存变化趋势
Swap使用分析：当swpd值持续增长时，需检查si/so（换入/换出）速率

三、存储系统健康管理

3.1 磁盘空间监控

# 显示文件系统使用情况（人类可读格式）
df -hT | grep -v tmpfs
# 树状结构显示磁盘使用（需安装ncdu）
ncdu /

3.2 I/O性能分析

基础监控：

iostat -x 1  # 显示设备级I/O统计（含%util、await等关键指标）
iotop -oP    # 实时显示进程级I/O占用（需root权限）

深度诊断：当await值持续高于svctm时，表明存在I/O等待队列堆积

3.3 SMART健康检测

# 安装检测工具（主流发行版通用）
sudo apt install smartmontools  # Debian/Ubuntu
sudo yum install smartmontools  # CentOS/RHEL
# 执行全面检测（以/dev/sda为例）
sudo smartctl -a /dev/sda | grep -E 'Reallocated_Sector|Current_Pending_Sector|UDMA_CRC'

重点关注参数：

Reallocated_Sector_Ct：重分配扇区数（>0需警惕）
Current_Pending_Sector：待映射扇区（持续增长表明磁盘即将故障）
Offline_Uncorrectable：离线不可纠正错误（出现即需更换）

四、网络故障快速定位

4.1 基础状态检查

# 显示所有网络接口状态
ip -s link
# 检查驱动信息（以eth0为例）
ethtool eth0 | grep -E 'Speed|Duplex|Link detected'
# 硬件信息深度查询（需安装lshw）
sudo lshw -class network | grep -A10 'logical name: eth0'

4.2 连通性诊断

链路层检测：

ethtool -S eth0  # 查看接口统计计数器
mtr -rw example.com  # 路径质量分析（结合ping+traceroute）

传输层分析：

ss -tulnp | grep :80  # 查看端口监听状态
tcpdump -i eth0 -nn 'port 80'  # 抓包分析（需root权限）

4.3 性能优化建议

当rx/tx丢包率持续>0.1%时，检查：
- 物理链路质量（光模块/网线）
- 驱动参数配置（通过ethtool -C调整中断合并）
- 系统参数优化（调整net.core.rmem_max等内核参数）

五、综合诊断工具链

5.1 系统级监控

dmesg：实时查看内核日志（重点关注OOM killer、I/O error等关键事件）

journalctl：systemd系统日志分析：

journalctl -k --since "1 hour ago" | grep -i error

5.2 自动化诊断

推荐构建诊断脚本库，包含：

#!/bin/bash
# 快速诊断脚本示例
echo "===== CPU Info ====="
lscpu | grep -E 'Model name|CPU(s)'
echo -e "\n===== Memory Info ====="
free -h
echo -e "\n===== Top 5 CPU Processes ====="
ps aux --sort=-%cpu | head -6
echo -e "\n===== Top 5 Memory Processes ====="
ps aux --sort=-%mem | head -6

5.3 云环境适配建议

在虚拟化环境中，需额外关注：

实例规格限制（通过cat /proc/cpuinfo | grep 'physical id'确认虚拟核分配）
存储性能差异（对比本地盘与云盘的iostat数据）
网络QoS策略（检查tc -s qdisc show dev eth0输出）

六、最佳实践总结

建立基线：在健康状态下采集各指标基准值，便于异常对比
分层诊断：遵循”系统级→组件级→进程级”的排查顺序
工具组合：灵活运用top/htop（快速定位）、strace/ltrace（深度分析）、perf（性能剖析）等工具
日志管理：配置集中式日志收集系统，保留至少30天的诊断数据
自动化预警：通过监控系统设置关键指标阈值告警（如CPU%util>90%持续5分钟）

通过系统化的硬件诊断方法论，可显著提升Linux系统的稳定性与运维效率。建议定期演练故障场景，构建适合自身环境的诊断知识库，实现从被动救火到主动预防的运维模式升级。

Linux系统硬件诊断与故障处理全攻略