一、环境准备与Docker基础配置

1.1 系统环境要求

Apache Flink的Docker单机部署对主机环境有明确要求：建议使用Linux内核4.x以上版本（Ubuntu 20.04/CentOS 8为优），Docker引擎版本需≥20.10。内存方面，JobManager建议分配4GB，TaskManager按实际作业需求配置（测试环境可设2GB起）。磁盘空间需预留10GB以上用于日志和检查点存储。

1.2 Docker安装与网络配置

在Ubuntu系统上，可通过以下命令快速安装Docker：

sudo apt update
sudo apt install -y docker.io
sudo systemctl enable --now docker

安装后需配置镜像加速（如使用阿里云镜像源）：

sudo mkdir -p /etc/docker
sudo tee /etc/docker/daemon.json <<-'EOF'
{
  "registry-mirrors": ["https://<your-mirror-id>.mirror.aliyuncs.com"]
}
EOF
sudo systemctl restart docker

网络配置方面，建议创建专用网络以隔离Flink容器：

docker network create flink-net

二、Flink Docker镜像选择与定制

2.1 官方镜像解析

Apache Flink官方提供两类Docker镜像：

基础镜像：flink:<version>-scala_<scala_version>（如flink:1.17-scala_2.12）
完整镜像：包含Web UI和预装连接器（flink:1.17-java11）

推荐生产环境使用完整镜像，开发测试可选基础镜像。镜像拉取示例：

docker pull flink:1.17-scala_2.12

2.2 自定义镜像构建

当需要集成特定连接器（如Kafka、JDBC）时，可通过Dockerfile定制：

FROM flink:1.17-scala_2.12
RUN wget -O /opt/flink/plugins/flink-sql-connector-kafka.jar \
    https://repo.maven.apache.org/maven2/org/apache/flink/flink-sql-connector-kafka_2.12/1.17.0/flink-sql-connector-kafka_2.12-1.17.0.jar

构建命令：

docker build -t my-flink:1.17 .

三、单机部署模式详解

3.1 Standalone模式部署

3.1.1 单容器部署

最简部署方式，启动包含JobManager和TaskManager的单个容器：

docker run --name flink-standalone \
  --network flink-net \
  -p 8081:8081 \
  -t flink:1.17-scala_2.12 standalone-job

访问http://localhost:8081即可查看Web UI。

3.1.2 多容器集群部署

更接近生产环境的部署方式，需分别启动JobManager和TaskManager：

# 启动JobManager
docker run --name jobmanager \
  --network flink-net \
  -p 8081:8081 \
  -t flink:1.17-scala_2.12 jobmanager
# 启动TaskManager
docker run --name taskmanager \
  --network flink-net \
  -e JOB_MANAGER_RPC_ADDRESS=jobmanager \
  -t flink:1.17-scala_2.12 taskmanager

3.2 Session与Per-Job模式对比

模式	适用场景	资源分配	启动速度
Session	频繁提交短作业	预先分配	快
Per-Job	长时间运行的大型作业	按需分配	慢

Session模式启动命令：

docker run --name flink-session \
  --network flink-net \
  -p 8081:8081 \
  -t flink:1.17-scala_2.12 session

四、作业提交与管理

4.1 本地作业提交

通过docker exec进入容器提交JAR包：

docker exec -it flink-standalone bash
# 在容器内执行
./bin/flink run -c com.example.MainClass /path/to/job.jar

4.2 主机文件映射

更推荐的方式是将本地JAR包映射到容器：

docker run --name flink-job \
  --network flink-net \
  -v $(pwd)/jobs:/jobs \
  -t flink:1.17-scala_2.12 run -c com.example.MainClass /jobs/job.jar

4.3 作业监控与调试

通过Web UI可查看：

作业拓扑图
任务管理器状态
检查点进度
指标仪表盘

关键指标监控建议：

numRecordsInPerSecond：输入吞吐量
pendingRecords：积压数据量
latency：端到端延迟

五、高级配置与优化

5.1 内存配置调优

在flink-conf.yaml中设置：

taskmanager.memory.process.size: 2048m
taskmanager.memory.framework.heap.size: 256mb
taskmanager.memory.managed.size: 512mb

或通过环境变量：

-e TASK_MANAGER_MEMORY_PROCESS_SIZE=2048m

5.2 检查点配置

启用HDFS检查点存储：

state.backend: rocksdb
state.checkpoints.dir: hdfs://namenode:8020/flink/checkpoints
state.savepoints.dir: hdfs://namenode:8020/flink/savepoints

5.3 高可用配置

使用ZooKeeper实现HA：

high-availability: zookeeper
high-availability.zookeeper.quorum: zk1:2181,zk2:2181,zk3:2181
high-availability.storageDir: hdfs://namenode:8020/flink/ha/

六、故障排查与常见问题

6.1 常见错误处理

错误现象	解决方案
`Container exited with code 137`	增加内存限制或优化作业内存使用
`Checkpoint failed`	检查存储路径权限和网络连接
`RPC timeout`	检查JobManager地址配置

6.2 日志分析技巧

关键日志文件位置：

/opt/flink/log/：Flink核心日志
/var/log/docker/：Docker引擎日志

使用docker logs实时查看：

docker logs -f flink-standalone

6.3 性能瓶颈定位

建议使用Flink内置指标结合Prometheus+Grafana监控：

metrics.reporter.prom.class: org.apache.flink.metrics.prometheus.PrometheusReporter
metrics.reporter.prom.port: 9250-9260

七、总结与最佳实践

7.1 部署模式选择建议

开发测试：单容器Session模式
生产环境：多容器Per-Job模式+HA配置
边缘计算：轻量级镜像+资源限制

7.2 资源管理黄金法则

为TaskManager分配内存时，遵循堆内存:托管内存:网络内存=41比例
并行度设置建议为CPU核心数的2-3倍
检查点间隔设置为作业延迟容忍度的1/3

7.3 持续集成建议

将Flink Docker部署纳入CI/CD流程：

# 示例GitLab CI配置
deploy_flink:
  stage: deploy
  image: docker:latest
  script:
    - docker login -u $DOCKER_USER -p $DOCKER_PASS
    - docker build -t my-flink:$CI_COMMIT_SHA .
    - docker push my-flink:$CI_COMMIT_SHA

通过以上系统化的部署方案，开发者可以快速在单机环境中构建起高效的Flink流处理平台，既满足开发测试需求，也为后续集群扩展奠定基础。实际部署时，建议先在小规模环境验证配置，再逐步扩大规模。

Flink Docker 单机部署全攻略：从环境搭建到作业运行