一、进程监控基础：用户会话与系统状态

在Linux系统管理中，进程监控是保障服务稳定性的核心环节。通过命令行工具组合使用，管理员可实时掌握用户活动、资源占用及系统负载情况。以下从基础会话监控工具入手，解析其技术原理与应用场景。

1.1 用户会话管理三剑客

who命令作为最基础的会话查询工具，通过解析/var/run/utmp文件获取登录信息。其核心功能包括：

基础会话查询：默认输出包含登录名、终端设备、登录时间三要素
高级参数组合：-i参数可显示用户空闲时间，-q参数仅统计在线人数
特殊格式处理：who am i等价于who -m，专用于获取当前终端用户信息

典型应用场景：当需要验证用户是否在线以建立即时通讯连接时，who -u可快速确认目标用户状态，其输出中的IDLE字段（如2:30）表示用户已2分30秒未操作终端。

w命令在who基础上扩展了进程活动监控功能，其输出分为两层结构：

系统概览行：显示当前时间、系统运行时长、平均负载
用户活动表：包含登录名、终端、来源IP、CPU占用率、当前命令等10余项指标

该命令通过解析/proc文件系统动态获取数据，特别适合需要同时观察系统负载与用户行为的场景。例如在排查突发性能下降时，可通过w | grep -v "load average"快速过滤出活跃用户及其正在执行的命令。

1.2 进程状态快照技术

ps命令作为进程管理的瑞士军刀，其核心机制是通过遍历/proc目录下的进程信息文件生成快照。关键参数组合包括：

aux：显示所有用户进程的完整信息（UID、PID、%CPU、%MEM等）
ef：以树状结构展示进程父子关系
--sort=-%mem：按内存占用降序排列进程

进阶用法示例：

# 查找内存占用超过1GB的Java进程
ps aux | awk '$11 ~ /java/ && $4 > 1024 {print $0}'
# 监控特定用户的异常进程
watch -n 2 "ps -u apache --no-headers | wc -l"

二、动态资源监控体系

2.1 实时监控界面解析

top命令通过交互式界面提供动态资源监控能力，其技术架构包含三个核心模块：

数据采集层：每3秒刷新一次/proc/stat、/proc/meminfo等系统文件
计算引擎：实时计算CPU使用率、内存占用等衍生指标
显示模块：支持排序、过滤、颜色高亮等交互操作

关键操作指南：

排序控制：按内存占用排序（Shift+M）、按CPU排序（Shift+P）
进程过滤：输入o进入字段过滤模式，例如o COMMAND=java仅显示Java进程
颜色配置：通过~/.toprc文件自定义高亮规则，如将CPU>90%的进程显示为红色

2.2 增强型监控方案

htop作为top的进化版本，在三个方面实现突破：

视觉增强：采用彩色进度条直观展示资源占用
交互升级：支持鼠标点击排序、进程树展开等操作
功能扩展：内置网络监控、磁盘I/O统计等模块

安装配置建议：

# 编译安装最新版本（以2.2.0为例）
wget https://hisham.hm/htop/releases/2.2.0/htop-2.2.0.tar.gz
tar xf htop-2.2.0.tar.gz && cd htop-2.2.0
./configure --prefix=/usr/local && make && sudo make install

三、内存诊断深度实践

3.1 内存类型解析

Linux进程内存包含三种核心类型：

RSS（常驻内存）：进程实际使用的物理内存，包含共享库占用
VMS（虚拟内存）：进程可访问的地址空间总量，包含未使用的交换分区
SHR（共享内存）：多个进程共同使用的内存区域

3.2 内存泄漏检测流程

建立标准化诊断流程可显著提升问题定位效率：

初步筛查：使用top -o %MEM定位内存占用异常进程
深度分析：通过pmap -x <PID>查看进程内存映射详情
堆栈追踪：对Java等JVM进程，结合jmap -heap <PID>分析堆内存
趋势监控：配置监控告警规则，当free -m输出中buffers/cache持续下降时触发告警

典型案例分析：某Web服务出现内存缓慢增长，通过以下步骤定位问题：

# 步骤1：确认异常进程
top -b -n 1 | head -10
# 步骤2：分析内存分布
pmap -x $(pgrep java) | less
# 步骤3：生成堆转储文件
jmap -dump:format=b,file=heap.hprof $(pgrep java)

四、综合监控方案构建

4.1 工具链整合策略

建议采用分层监控架构：

基础层：cron定时任务执行ps -eo pid,rss,cmd > /var/log/proc_mem.log
分析层：ELK栈处理日志数据，生成内存占用趋势图
告警层：Prometheus监控node_memory_MemAvailable_bytes指标

4.2 自动化诊断脚本示例

#!/bin/bash
# 内存异常进程检测脚本
THRESHOLD=80  # 内存占用阈值(%)
LOG_FILE="/var/log/mem_alert.log"
# 获取内存总量（MB）
TOTAL_MEM=$(free -m | awk '/Mem:/ {print $2}')
# 检测异常进程
ps -eo pid,%mem,cmd --sort=-%mem | head -10 | while read -r line; do
    MEM_USAGE=$(echo $line | awk '{print $2}')
    if (( $(echo "$MEM_USAGE > $THRESHOLD" | bc -l) )); then
        PID=$(echo $line | awk '{print $1}')
        CMD=$(echo $line | cut -d' ' -f4-)
        echo "[$(date)] Alert: PID $PID ($CMD) using ${MEM_USAGE}% memory" >> $LOG_FILE
        # 可选：发送告警通知
        # echo "Memory alert: $line" | mail -s "High Memory Usage" admin@example.com
    fi
done

五、性能优化最佳实践

容器环境适配：在容器中监控进程时，建议使用nsenter进入命名空间执行监控命令
内核参数调优：通过vm.overcommit_memory等参数控制内存分配策略
监控频率优化：根据系统负载动态调整监控工具的刷新间隔（如top的-d参数）
可视化增强：使用glances等工具提供Web界面监控能力

通过系统掌握上述技术体系，开发者可构建从基础会话监控到深度内存诊断的完整能力链。在实际运维工作中，建议结合具体业务场景建立标准化监控模板，例如为数据库服务配置专门的内存监控规则，为Web服务设置连接数阈值告警等。随着系统规模扩大，可逐步引入分布式监控系统实现跨主机资源聚合分析。

Linux系统进程监控全解析：从基础命令到高级诊断工具