单机部署Yarn：从环境配置到集群管理的完整指南

在大数据处理与分布式计算场景中，Yarn（Yet Another Resource Negotiator）作为Hadoop生态的核心组件，承担着资源管理与任务调度的关键职责。尽管Yarn通常运行在多节点集群中，但单机部署模式在开发测试、小型项目或资源受限环境下仍具有重要价值。本文将系统阐述单机环境下Yarn的部署流程，涵盖环境准备、安装配置、依赖管理及常见问题解决方案，为开发者提供可落地的技术指南。

一、单机部署Yarn的核心价值与适用场景

1.1 单机部署的典型应用场景

单机部署Yarn主要适用于以下场景：

开发测试环境：开发者在本地验证Yarn调度逻辑或MapReduce任务时，无需搭建完整集群。
小型数据处理：处理数据量较小（如GB级）的批处理任务，单机资源即可满足需求。
教学与学习：在课程实验或技术培训中，快速搭建Yarn环境以理解其工作原理。
资源受限环境：如边缘计算设备或嵌入式系统，仅需单机运行轻量级任务。

1.2 单机部署的优势与局限性

优势：

成本低：无需多台服务器，节省硬件与运维成本。
部署快：安装配置简单，适合快速迭代。
隔离性强：独立环境避免与其他系统资源冲突。

局限性：

资源有限：无法模拟分布式环境下的网络延迟与节点故障。
扩展性差：无法处理超大规模数据或高并发任务。
高可用缺失：单机故障会导致整个系统不可用。

二、单机部署Yarn的环境准备

2.1 硬件与系统要求

硬件：至少4GB内存（推荐8GB以上）、双核CPU、50GB以上磁盘空间。
操作系统：Linux（Ubuntu/CentOS）或Windows（需WSL2支持）。
依赖：Java JDK 8+、SSH服务（用于本地模拟集群通信）。

2.2 安装前检查清单

Java环境验证：

java -version
# 应输出类似：openjdk version "1.8.0_312"

SSH配置：
- 确保SSH服务已启动：sudo service ssh start（Linux）。
- 生成SSH密钥并添加到authorized_keys：
```
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
```

三、Yarn单机部署详细步骤

3.1 下载与解压Hadoop/Yarn

下载稳定版Hadoop：

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -xzvf hadoop-3.3.6.tar.gz -C /opt/
cd /opt/hadoop-3.3.6

配置环境变量：
编辑~/.bashrc，添加：

export HADOOP_HOME=/opt/hadoop-3.3.6
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

执行source ~/.bashrc使配置生效。

3.2 核心配置文件修改

core-site.xml：

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>

hdfs-site.xml：

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value> <!-- 单机模式设为1 -->
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/opt/hadoop-3.3.6/data/namenode</value>
  </property>
</configuration>

mapred-site.xml（需从模板复制）：

cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

修改内容：

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

yarn-site.xml：

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>localhost</value>
  </property>
</configuration>

3.3 格式化HDFS并启动服务

格式化NameNode（仅首次执行）：
```
hdfs namenode -format
```

启动HDFS与Yarn：

# 启动HDFS
$HADOOP_HOME/sbin/start-dfs.sh
# 启动Yarn
$HADOOP_HOME/sbin/start-yarn.sh

验证服务状态：

jps
# 应看到NameNode、DataNode、ResourceManager、NodeManager等进程

四、单机Yarn的常见问题与解决方案

4.1 端口冲突问题

现象：启动时提示Address already in use。
解决：

检查冲突端口（如50070、8088）：
```
netstat -tulnp | grep <端口号>
```
修改配置文件中的端口（如yarn-site.xml中的yarn.resourcemanager.webapp.address）。

4.2 内存不足错误

现象：任务提交失败，日志显示OutOfMemoryError。
解决：

调整Yarn内存配置（yarn-site.xml）：

<property>
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>2048</value> <!-- 根据实际内存调整 -->
</property>

限制单个任务内存（mapred-site.xml）：

<property>
  <name>mapreduce.map.memory.mb</name>
  <value>512</value>
</property>

4.3 SSH权限问题

现象：启动脚本报错Permission denied (publickey)。
解决：

确保~/.ssh/authorized_keys权限为600：
```
chmod 600 ~/.ssh/authorized_keys
```

检查SSH服务是否监听所有接口：

sudo vim /etc/ssh/sshd_config
# 确保ListenAddress 0.0.0.0或未设置

五、单机Yarn的优化建议

5.1 资源分配优化

动态调整：通过yarn.scheduler.capacity.maximum-am-resource-percent控制ApplicationMaster资源占比。
容器复用：启用yarn.nodemanager.container-executor.class为org.apache.hadoop.yarn.server.nodemanager.LinuxContainerExecutor以提升效率。

5.2 日志与监控

日志聚合：在yarn-site.xml中配置：

<property>
  <name>yarn.log-aggregation-enable</name>
  <value>true</value>
</property>

Web UI监控：访问http://localhost:8088查看集群状态与任务详情。

六、总结与扩展

单机部署Yarn为开发者提供了低成本、高效率的资源管理方案，尤其适合开发测试与小型项目。通过合理配置与优化，可在有限资源下实现近似集群的性能。未来可进一步探索：

与Docker集成：通过容器化实现环境隔离与快速部署。
混合模式：结合本地与云资源，构建弹性伸缩的混合集群。

掌握单机Yarn部署后，开发者可更深入理解分布式资源调度的核心机制，为后续集群部署打下坚实基础。