Flink on YARN部署单机：从环境搭建到运行优化的全流程解析

一、为什么选择Flink on YARN单机部署？

Apache Flink作为一款高性能流批一体计算框架，其YARN模式部署能够充分利用Hadoop生态的资源管理能力。在单机环境下，通过YARN部署Flink可以实现：

资源隔离：通过YARN的容器机制隔离不同作业资源
弹性扩展：单机多任务场景下动态分配资源
统一管理：与Hadoop集群其他组件无缝集成
高可用基础：为后续集群化部署积累配置经验

典型适用场景包括：

开发测试环境快速验证
小规模数据处理作业
资源受限环境下的临时计算任务
教学演示环境搭建

二、环境准备与前置条件

1. 硬件配置要求

组件	最低配置	推荐配置
内存	8GB	16GB+
CPU核心	2核	4核+
磁盘空间	50GB	100GB+ (SSD优先)
网络带宽	100Mbps	千兆网络

2. 软件依赖清单

Hadoop 2.7+ 或 CDH/HDP等发行版
Java JDK 1.8+（推荐OpenJDK）
Flink 1.11+（与YARN版本匹配）
操作系统：Linux（CentOS/Ubuntu）

3. 网络环境配置

# 修改hosts文件确保主机名解析
127.0.0.1 localhost
192.168.1.100 hadoop-node1
# 配置SSH免密登录
ssh-keygen -t rsa
ssh-copy-id hadoop-node1

三、YARN环境配置详解

1. 核心配置文件调整

修改yarn-site.xml关键参数：

<property>
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>8192</value> <!-- 总可用内存 -->
</property>
<property>
  <name>yarn.scheduler.maximum-allocation-mb</name>
  <value>4096</value> <!-- 单个任务最大内存 -->
</property>
<property>
  <name>yarn.nodemanager.vmem-check-enabled</name>
  <value>false</value> <!-- 禁用虚拟内存检查 -->
</property>

2. 资源队列配置（可选）

创建专用队列配置：

<property>
  <name>yarn.scheduler.capacity.root.queues</name>
  <value>default,flink</value>
</property>
<property>
  <name>yarn.scheduler.capacity.root.flink.capacity</name>
  <value>50</value>
</property>

3. 验证YARN状态

# 启动YARN服务
start-yarn.sh
# 检查节点状态
yarn node -list
# 提交测试任务
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples.jar pi 2 5

四、Flink YARN部署实战

1. 部署模式选择

模式	特点	适用场景
Session模式	长期运行的集群	交互式查询、多作业共享
Per-Job模式	作业专属集群	一次性批处理作业
Application	集成用户代码的自定义EntryPoint	复杂作业链

2. Session模式部署步骤

# 下载并解压Flink
wget https://archive.apache.org/dist/flink/flink-1.15.0/flink-1.15.0-bin-scala_2.12.tgz
tar -xzf flink-*.tgz
# 启动YARN Session
./bin/yarn-session.sh \
  -n 2 \                # 任务管理器数量
  -jm 1024 \             # JobManager内存(MB)
  -tm 2048 \             # TaskManager内存(MB)
  -s 4 \                 # 每个TaskManager的槽位数
  -d                     # 后台运行

3. 关键配置参数说明

参数	说明	推荐值
`yarn.containers.vcores`	每个容器的CPU核心数	1-2
`taskmanager.numberOfTaskSlots`	TaskManager槽位数	CPU核心数×2
`jobmanager.memory.process.size`	JobManager总内存	1024-2048MB
`taskmanager.memory.process.size`	TaskManager总内存	2048-4096MB

五、作业提交与管理

1. 通过Web UI提交作业

访问http://<hostname>:8088查看YARN应用
进入Flink Web UI（默认端口8081）
上传JAR包并配置运行参数

2. CLI方式提交作业

./bin/flink run \
  -m yarn-cluster \           # 指定YARN集群
  -yn 2 \                     # 任务管理器数量
  -yjm 1024 \                 # JobManager内存
  -ytm 2048 \                 # TaskManager内存
  -c com.example.MainClass \  # 主类
  /path/to/job.jar

3. 作业监控命令

# 查看运行中的作业
yarn application -list
# 获取作业日志
yarn logs -applicationId <appId> > flink.log
# 终止作业
yarn application -kill <appId>

六、常见问题解决方案

1. 内存不足错误

现象：Container is running beyond physical memory limits
解决方案：

调整yarn.nodemanager.resource.memory-mb
减小taskmanager.memory.process.size

禁用内存检查：

<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>

2. 槽位分配失败

现象：Not enough slots available
解决方案：

增加taskmanager.numberOfTaskSlots
检查parallelism.default设置
确保-s参数与槽位数匹配

3. 网络连接问题

现象：Connection refused
解决方案：

检查high-availability.storageDir配置
验证rest.port是否被占用

检查防火墙设置：

sudo iptables -L
sudo systemctl stop firewalld

七、性能优化建议

1. 内存配置优化

# flink-conf.yaml优化示例
taskmanager.memory.framework.off-heap.size: 128mb
taskmanager.memory.managed.size: 512mb
taskmanager.memory.task.heap.size: 1024mb

2. 并行度设置策略

批处理作业：并行度 = min(核心数×2, 数据分区数)
流处理作业：并行度 = 核心数×槽位数

3. 检查点优化

// 代码中配置检查点
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.enableCheckpointing(60000); // 60秒间隔
env.getCheckpointConfig().setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE);

八、进阶配置技巧

1. 动态资源分配

<!-- 启用动态资源 -->
<property>
  <name>yarn.resourcemanager.scheduler.class</name>
  <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
</property>

2. 高可用配置

# flink-conf.yaml
high-availability: zookeeper
high-availability.zookeeper.quorum: localhost:2181
high-availability.storageDir: hdfs://namenode:8020/flink/recovery

3. 日志聚合配置

<!-- 在mapred-site.xml中 -->
<property>
  <name>mapreduce.jobhistory.done-dir</name>
  <value>/tmp/history/done</value>
</property>
<property>
  <name>mapreduce.jobhistory.intermediate-done-dir</name>
  <value>/tmp/history/intermediate</value>
</property>

九、总结与最佳实践

资源预估原则：
- 预留20%系统资源
- 批处理作业内存配置为数据量的1.5倍
- 流处理作业网络缓冲区设为内存的25%
监控指标关注点：
- 垃圾回收时间（<5%）
- 背压警告（Backpressure）
- 槽位利用率（>80%）

升级建议路径：

graph LR
A[单机测试] --> B[伪分布式验证]
B --> C[小规模集群]
C --> D[生产环境]

通过本文的详细指导，开发者可以在单机环境下快速搭建Flink on YARN计算环境，既满足开发测试需求，也为后续集群化部署奠定基础。实际部署中建议从Session模式入手，逐步掌握资源管理和作业调优技巧。

flink on yarn部署单机：单机环境下的高效实践指南