一、引言：为何选择Flink on YARN单机部署？

Apache Flink作为一款高性能流处理框架，广泛应用于实时数据分析、事件驱动型应用等场景。在生产环境中，Flink通常以集群形式运行在YARN、Kubernetes等资源管理平台上。然而，对于开发测试或小型项目，单机部署Flink on YARN既能利用YARN的资源管理能力，又能简化部署流程，降低资源消耗。本文将详细阐述如何在YARN环境下部署单机版Flink集群，并完成单机启动的全过程。

二、环境准备：基础条件与软件依赖

1. 基础环境要求

操作系统：推荐使用Linux系统（如CentOS 7+），确保系统时间与网络时间同步。
Java环境：安装JDK 8或更高版本，配置JAVA_HOME环境变量。
Hadoop环境：已部署Hadoop集群（2.7+版本），包含YARN和HDFS服务。
网络连通性：确保部署节点与Hadoop集群网络互通。

2. 软件依赖下载

Flink二进制包：从Apache Flink官网下载与Hadoop版本兼容的Flink二进制包（如flink-1.15.0-bin-scala_2.12.tgz）。
Hadoop配置文件：获取Hadoop集群的core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml文件，用于Flink配置。

三、配置调整：适配单机环境

1. 解压与配置Flink

# 解压Flink包
tar -xzvf flink-1.15.0-bin-scala_2.12.tgz -C /opt/
cd /opt/flink-1.15.0/
# 复制Hadoop配置文件到Flink配置目录
cp /etc/hadoop/conf/{core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml} ./conf/

2. 修改Flink配置文件

编辑conf/flink-conf.yaml，重点调整以下参数：

# 指定JobManager的RPC地址（单机部署时通常为localhost）
jobmanager.rpc.address: localhost
# 设置TaskManager的内存大小（根据单机资源调整）
taskmanager.memory.process.size: 1024m
# 启用YARN集成
yarn.application-name: Flink-on-YARN-Standalone
yarn.application-master.env.HADOOP_USER_NAME: hadoop # 替换为有权限的Hadoop用户
# 指定HDFS路径用于存储检查点等（可选）
state.backend: filesystem
state.checkpoints.dir: hdfs://namenode:8020/flink/checkpoints
state.savepoints.dir: hdfs://namenode:8020/flink/savepoints

3. 配置YARN资源申请

编辑conf/flink-conf.yaml中的YARN相关参数：

# 申请的容器内存大小（JobManager）
yarn.containers.vcores: 1
yarn.scheduler.maximum-allocation-mb: 2048 # 最大可用内存
# TaskManager数量与资源（单机部署时通常为1）
taskmanager.numberOfTaskSlots: 2 # 根据CPU核心数调整
yarn.taskmanager.memory.process.size: 1024m

四、启动步骤：从零到一的完整流程

1. 启动Hadoop集群

确保YARN和HDFS服务已启动：

# 启动HDFS
start-dfs.sh
# 启动YARN
start-yarn.sh

2. 提交Flink应用到YARN

使用yarn-session.sh脚本启动Flink会话：

./bin/yarn-session.sh \
-n 1 \ # TaskManager数量
-tm 1024 \ # 每个TaskManager的内存（MB）
-jm 1024 \ # JobManager的内存（MB）
-s 2 \ # 每个TaskManager的槽位数
-D yarn.application.name="Flink Standalone on YARN" \
-d # 后台运行

参数说明：

-n：TaskManager数量（单机部署时设为1）。
-tm/-jm：TaskManager/JobManager的内存大小。
-s：每个TaskManager的槽位数（建议与CPU核心数匹配）。
-d：后台运行模式。

3. 验证部署状态

通过YARN ResourceManager Web UI（默认端口8088）查看应用状态：

访问http://<resourcemanager-host>:8088。
在“Applications”页面找到名为“Flink Standalone on YARN”的应用。
检查状态是否为“RUNNING”，并查看日志确认无错误。

4. 提交Flink作业（可选）

若需测试作业提交，可使用以下命令：

./bin/flink run \
-m yarn-cluster \ # 指定YARN集群模式
-yn 1 \ # TaskManager数量
-yjm 1024 \ # JobManager内存
-ytm 1024 \ # TaskManager内存
examples/streaming/WordCountJob.jar

五、问题排查与优化建议

1. 常见问题及解决方案

问题1：Unable to register application master
- 原因：YARN资源不足或权限问题。
- 解决：检查YARN日志（yarn logs -applicationId <app_id>），调整yarn.scheduler.maximum-allocation-mb。
问题2：TaskManager启动失败
- 原因：内存配置不当或槽位数超过物理核心。
- 解决：减少taskmanager.numberOfTaskSlots或增加taskmanager.memory.process.size。
问题3：HDFS路径访问失败
- 原因：core-site.xml或hdfs-site.xml配置错误。
- 解决：验证HDFS服务是否正常运行，检查配置文件中的fs.defaultFS。

2. 性能优化建议

内存调优：根据单机资源调整taskmanager.memory.framework.off-heap.size和taskmanager.memory.managed.size。
日志管理：通过log4j-yarn-session.properties自定义日志级别和输出路径。
高可用配置：若需HA，可配置high-availability.storageDir和high-availability.zookeeper.quorum。

六、总结与展望

通过本文的步骤，读者已成功在YARN环境下部署了单机版Flink集群，并完成了启动与作业提交的全流程。单机部署模式适用于开发测试、小型项目或资源受限场景，而生产环境建议采用多节点集群以提升容错性和吞吐量。未来，随着Flink与YARN/Kubernetes的深度集成，部署流程将进一步简化，资源利用率也将显著提高。

Flink on YARN单机部署与启动全攻略