一、为什么选择Spark Docker单机部署？

Apache Spark作为分布式计算框架，传统部署需配置Hadoop集群或手动安装依赖，过程复杂且耗时。而Docker通过容器化技术将Spark及其依赖（如Java、Scala）封装为独立环境，实现”开箱即用”的单机体验。其核心优势包括：

环境隔离：避免与宿主机系统冲突，确保Spark版本与依赖的纯净性。
快速迭代：镜像拉取与启动仅需数分钟，适合开发测试、教学演示及轻量级数据分析。
跨平台兼容：同一镜像可在Linux/macOS/Windows（WSL2）无缝运行，消除操作系统差异。
资源可控：通过Docker参数限制CPU/内存，防止单机资源过载。

二、部署前准备：硬件与软件要求

硬件配置建议

CPU：4核及以上（Spark任务依赖多线程计算）
内存：8GB以上（预留4GB给宿主机，剩余分配给容器）
磁盘：20GB可用空间（用于存储镜像、日志及临时数据）

软件依赖清单

Docker Desktop（Windows/macOS）或Docker Engine（Linux）
命令行工具：curl/wget（下载镜像）、docker命令行
可选：Portainer（图形化管理Docker容器）

三、Docker镜像选择与拉取

官方镜像 vs 社区镜像

官方镜像：bitnami/spark（由Bitnami维护，提供稳定版Spark+OpenJDK）
```
docker pull bitnami/spark:3.5.0
```
社区镜像：apache/spark（Apache官方维护，更新较慢但版本纯粹）
```
docker pull apache/spark:3.5.0
```
推荐：初学者使用bitnami/spark，因其预置了常用配置（如SPARK_MASTER_HOST环境变量）。

镜像标签说明

3.5.0：Spark版本号，建议选择最新稳定版（如3.5.x）。
-hadoop3：附带特定Hadoop版本的镜像（如需HDFS支持）。
-jre11：指定Java运行时版本（Spark 3.0+推荐JRE 11）。

四、单机部署详细步骤

1. 启动Spark Master节点

docker run -d --name spark-master \
  -p 8080:8080 -p 7077:7077 \
  -e SPARK_MODE=master \
  bitnami/spark:3.5.0

端口映射：
- 8080：Spark Web UI（查看任务状态）
- 7077：集群通信端口（Worker连接用）
环境变量：SPARK_MODE=master指定节点角色。

2. 启动Spark Worker节点

docker run -d --name spark-worker \
  --link spark-master:spark-master \
  -e SPARK_MODE=worker \
  -e SPARK_MASTER_URL=spark://spark-master:7077 \
  bitnami/spark:3.5.0

--link：建立容器间网络连接（旧版Docker用法，新版推荐自定义网络）。

自定义网络方案（推荐）：

# 创建网络
docker network create spark-net
# 启动Master
docker run -d --name spark-master --network spark-net -p 8080:8080 -p 7077:7077 -e SPARK_MODE=master bitnami/spark:3.5.0
# 启动Worker
docker run -d --name spark-worker --network spark-net -e SPARK_MODE=worker -e SPARK_MASTER_URL=spark://spark-master:7077 bitnami/spark:3.5.0

3. 验证部署

访问Web UI：浏览器打开http://localhost:8080，应看到1个Worker已注册。

提交测试任务：

docker exec -it spark-master bash
# 在容器内执行
spark-submit --class org.apache.spark.examples.SparkPi \
  --master spark://spark-master:7077 \
  /opt/bitnami/spark/examples/jars/spark-examples_*.jar 10

输出应包含Pi is roughly 3.14...的计算结果。

五、配置优化与高级用法

1. 资源限制

通过-c（CPU份额）和--memory限制容器资源：

docker run -d --name spark-worker \
  --network spark-net \
  -e SPARK_MODE=worker \
  -e SPARK_MASTER_URL=spark://spark-master:7077 \
  -c 2.0 --memory="4g" \
  bitnami/spark:3.5.0

2. 数据卷挂载

将本地数据或代码映射到容器：

docker run -d --name spark-worker \
  --network spark-net \
  -v /path/to/local/data:/data \
  -v /path/to/your/code:/code \
  -e SPARK_MODE=worker \
  bitnami/spark:3.5.0

3. 使用PySpark

若需Python支持，需额外安装：

docker run -d --name spark-py \
  --network spark-net \
  -e SPARK_MODE=worker \
  -e SPARK_MASTER_URL=spark://spark-master:7077 \
  -p 4040:4040 \
  bitnami/spark:3.5.0
# 进入容器安装PySpark依赖
docker exec -it spark-py bash
pip install pandas numpy

六、常见问题解决

1. Worker无法连接Master

原因：网络不通或SPARK_MASTER_URL错误。
解决：
- 使用自定义网络（如spark-net）。
- 检查Master容器日志：docker logs spark-master。

2. 内存不足（OOM）

现象：Worker容器崩溃，日志含OutOfMemoryError。
解决：
- 增加容器内存限制（--memory参数）。
- 调整Spark配置（在spark-defaults.conf中设置）：
```
spark.driver.memory 2g
spark.executor.memory 2g
```

3. 端口冲突

现象：启动时报Bind for 0.0.0.0:8080 failed。
解决：修改宿主机映射端口（如-p 8081:8080）。

七、最佳实践建议

版本锁定：在docker-compose.yml中固定镜像版本，避免自动升级导致兼容性问题。
日志管理：使用docker logs -f spark-master实时查看任务进度。
备份配置：将修改后的spark-defaults.conf和log4j.properties保存到宿主机，通过数据卷挂载复用。
性能调优：对于CPU密集型任务，增加Worker数量（启动多个Worker容器）并限制每个Worker的线程数（spark.task.cpus）。

八、总结与扩展

通过Docker部署Spark单机环境，开发者可快速验证算法、调试代码，无需搭建复杂集群。后续可扩展至：

多节点集群：在多台主机上部署Master/Worker，使用Docker Swarm或Kubernetes管理。
与Hadoop集成：选择带Hadoop的镜像（如bitnami/spark:3.5.0-hadoop3），访问HDFS数据。
CI/CD流水线：将Spark任务打包为Docker镜像，集成到Jenkins/GitLab CI中自动化执行。

掌握Spark Docker单机部署是迈向大数据处理的第一步，其轻量级特性尤其适合教学、原型开发及资源受限场景。

Spark Docker 单机部署全攻略：从环境搭建到应用实践