单机部署Yarn：从环境配置到生产就绪的完整指南

一、单机部署Yarn的核心价值与适用场景

在中小规模数据处理场景中，单机部署Yarn（Yet Another Resource Negotiator）能够以极低的硬件成本实现资源调度功能。相较于分布式集群，单机模式省去了复杂的网络配置和节点同步问题，特别适合以下场景：

开发测试环境：快速搭建资源管理原型，验证调度策略
教学实验：高校或培训机构演示Hadoop生态核心机制
边缘计算：资源受限环境下的轻量级任务调度
个人项目：开发者本地运行ETL作业或机器学习训练

典型案例显示，在16核32GB内存的物理机上，合理配置的单机Yarn可稳定支持200+并发容器，处理TB级数据时延迟控制在秒级。

二、环境准备与依赖安装

2.1 系统要求

操作系统：Linux（推荐CentOS 7+/Ubuntu 18.04+）
Java环境：JDK 1.8+（需配置JAVA_HOME）
磁盘空间：至少50GB可用空间（含日志存储）
网络配置：关闭防火墙或开放8020-8088端口范围

2.2 依赖安装

# 安装OpenJDK（以Ubuntu为例）
sudo apt update
sudo apt install openjdk-8-jdk -y
# 验证Java安装
java -version
# 应输出：openjdk version "1.8.0_XXX"

2.3 下载与解压

# 获取Hadoop 3.x稳定版（包含Yarn）
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
tar -xzvf hadoop-3.3.4.tar.gz -C /opt/
ln -s /opt/hadoop-3.3.4 /opt/hadoop

三、核心配置文件详解

3.1 hadoop-env.sh配置

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/opt/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

3.2 yarn-site.xml关键配置

<configuration>
  <!-- 启用单机模式 -->
  <property>
    <name>yarn.resourcemanager.ha.enabled</name>
    <value>false</value>
  </property>
  <!-- 内存配置（根据实际调整） -->
  <property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>24576</value> <!-- 32GB机器的75% -->
  </property>
  <property>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>16384</value> <!-- 单容器最大内存 -->
  </property>
  <!-- CPU核心分配 -->
  <property>
    <name>yarn.nodemanager.resource.cpu-vcores</name>
    <value>12</value> <!-- 16核机器的75% -->
  </property>
  <!-- Web UI配置 -->
  <property>
    <name>yarn.resourcemanager.webapp.address</name>
    <value>0.0.0.0:8088</value>
  </property>
</configuration>

3.3 mapred-site.xml配置

<configuration>
  <!-- 指定Yarn为执行框架 -->
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
  <!-- 历史服务器配置（可选） -->
  <property>
    <name>mapreduce.jobhistory.address</name>
    <value>0.0.0.0:10020</value>
  </property>
</configuration>

四、启动与验证流程

4.1 格式化存储目录

$HADOOP_HOME/bin/hdfs namenode -format
# 成功应显示：Storage directory /tmp/hadoop-root/dfs/name has been successfully formatted

4.2 启动服务

# 启动HDFS（Yarn依赖的基础存储）
$HADOOP_HOME/sbin/start-dfs.sh
# 启动Yarn资源管理器
$HADOOP_HOME/sbin/start-yarn.sh
# 验证服务状态
jps
# 应看到：NameNode、DataNode、ResourceManager、NodeManager等进程

4.3 Web界面验证

访问 http://<服务器IP>:8088，应显示Yarn仪表盘，包含：

集群资源使用情况
运行的Application Master列表
节点健康状态

五、性能调优实战

5.1 内存优化策略

容器内存分配：设置yarn.scheduler.minimum-allocation-mb=1024，避免小任务占用过多资源
堆外内存控制：通过yarn.nodemanager.vmem-pmem-ratio=2.1限制虚拟内存使用
日志聚合：启用yarn.log-aggregation-enable=true减少本地磁盘占用

5.2 并发控制技巧

<!-- 限制单节点并发容器数 -->
<property>
  <name>yarn.nodemanager.resource.count-logical-cores-as-vcores</name>
  <value>true</value>
</property>
<property>
  <name>yarn.nodemanager.resource.detect-hardware-capabilities</name>
  <value>false</value> <!-- 禁用自动检测，使用固定配置 -->
</property>

5.3 监控体系搭建

推荐组合使用：

Ganglia：实时监控节点级资源使用
Prometheus + Grafana：可视化调度指标
自定义JMX指标：通过jconsole连接localhost:8004（ResourceManager JMX端口）

六、常见问题解决方案

6.1 容器启动失败

现象：ApplicationMaster日志显示”Container killed by request from NodeManager”

解决方案：

检查yarn.nodemanager.disk-health-checker.min-free-space-per-disk-mb配置
增加yarn.nodemanager.localizer.cache.cleanup.interval-ms值
验证/tmp目录权限

6.2 资源不足错误

错误代码：ERROR: Unable to create a new session instance. There are not enough resources

处理步骤：

调整yarn.scheduler.capacity.maximum-am-resource-percent值（默认0.1→0.2）
检查是否有僵尸进程占用资源：ps -ef | grep Container
优化任务内存请求参数：mapreduce.map.memory.mb和mapreduce.reduce.memory.mb

6.3 网络连接问题

诊断方法：

# 测试ResourceManager端口
telnet localhost 8088
# 检查防火墙规则
iptables -L -n
# 验证NodeManager注册
cat $HADOOP_HOME/logs/yarn-root-nodemanager-*.log | grep "Registered with ResourceManager"

七、生产环境强化建议

持久化配置：将核心配置纳入Puppet/Ansible管理
备份机制：定期备份$HADOOP_HOME/etc/hadoop目录
升级策略：关注Hadoop安全补丁（如CVE-2022-2421等漏洞修复）
日志轮转：配置log4j.properties实现日志自动切割

八、进阶功能探索

Docker容器支持：通过yarn.nodemanager.container-executor.class配置实现容器化任务执行
GPU调度：启用yarn.resource-types配置管理AI计算资源
动态资源分配：配置yarn.resourcemanager.scheduler.monitor.enable实现弹性伸缩

单机部署Yarn作为轻量级资源管理方案，在正确配置下可达到接近分布式集群80%的处理能力。建议开发者从32GB内存/8核CPU的基础配置起步，通过监控数据逐步优化参数。实际生产环境中，需特别注意任务隔离机制和故障恢复策略的设计，确保长期运行的稳定性。