一、为何选择Spark Docker单机部署？

Apache Spark作为大数据处理领域的核心框架，广泛应用于批处理、流处理和机器学习场景。传统部署方式需手动安装Java、Scala及Hadoop等依赖，配置复杂且易出错。而Docker容器化技术通过隔离环境、标准化依赖，将Spark部署时间从小时级缩短至分钟级，尤其适合以下场景：

本地开发测试：开发者无需配置集群即可验证Spark作业逻辑。
教学演示：快速搭建可复现的Spark环境，降低学习门槛。
轻量级数据处理：单机环境满足中小规模数据集的处理需求。

二、环境准备与依赖检查

1. 硬件与软件要求

硬件：建议4核CPU、8GB内存以上（处理大规模数据时需更高配置）。
操作系统：Linux（推荐Ubuntu 20.04+）或macOS（需Docker Desktop）。
软件依赖：
- Docker Engine（版本≥20.10）：安装指南
- Git（用于拉取示例代码）

2. 验证Docker环境

运行以下命令确认Docker服务正常：

docker --version
docker run hello-world

若输出Hello from Docker!，则环境就绪。

三、选择与拉取Spark Docker镜像

1. 官方镜像推荐

Apache Spark官方维护了Docker镜像，推荐使用以下标签：

bitnami/spark：包含预配置的Spark环境，支持独立模式（Standalone）和客户端模式。
apache/spark：官方基础镜像，需手动配置。

拉取Bitnami镜像（以3.5.0版本为例）：

docker pull bitnami/spark:3.5.0

2. 自定义镜像（进阶）

若需特定配置（如自定义spark-defaults.conf），可通过Dockerfile构建：

FROM bitnami/spark:3.5.0
COPY spark-defaults.conf /opt/bitnami/spark/conf/

构建并运行：

docker build -t my-spark .
docker run -it my-spark bash

四、单机模式部署与配置

1. 启动Spark独立集群（Standalone）

以下命令启动包含1个Master和1个Worker的本地集群：

docker run -d --name spark-master \
  -p 8080:8080 -p 7077:7077 \
  bitnami/spark:3.5.0
docker run -d --name spark-worker \
  --link spark-master:spark-master \
  -e SPARK_MODE=worker \
  -e SPARK_MASTER_URL=spark://spark-master:7077 \
  bitnami/spark:3.5.0

端口说明：
- 8080：Spark Web UI（监控集群状态）。
- 7077：集群通信端口。

2. 客户端模式运行Spark Shell

直接启动Spark Shell进行交互式开发：

docker run -it --rm \
  -e SPARK_MASTER_URL=spark://host.docker.internal:7077 \
  bitnami/spark:3.5.0 \
  /opt/bitnami/spark/bin/spark-shell

注意：macOS/Windows需将host.docker.internal替换为宿主机IP，Linux可直接使用localhost。

3. 配置优化

修改/opt/bitnami/spark/conf/spark-defaults.conf调整参数：

spark.driver.memory 2g
spark.executor.memory 4g
spark.executor.cores 2

通过-v参数挂载配置文件：

docker run -it --rm \
  -v $(pwd)/spark-defaults.conf:/opt/bitnami/spark/conf/spark-defaults.conf \
  bitnami/spark:3.5.0 \
  /opt/bitnami/spark/bin/spark-submit --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_*.jar 1000

五、实战示例：单词计数（WordCount）

1. 准备输入文件

在宿主机创建input.txt并写入内容：

hello world
hello spark
docker is awesome

2. 运行WordCount作业

docker run -it --rm \
  -v $(pwd)/input.txt:/tmp/input.txt \
  -v $(pwd)/output:/tmp/output \
  bitnami/spark:3.5.0 \
  /opt/bitnami/spark/bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master local[2] \
  /opt/bitnami/spark/examples/jars/spark-examples_*.jar \
  /tmp/input.txt /tmp/output

替代方案：使用Python版WordCount（需安装PySpark镜像）：
docker run -it --rm \
  -v $(pwd):/app \
  -w /app \
  python:3.9-slim \
  pip install pyspark && \
  python wordcount.py

六、常见问题与解决方案

1. 端口冲突

若8080或7077被占用，修改启动命令中的端口映射：

docker run -d --name spark-master \
  -p 8081:8080 -p 7078:7077 \
  bitnami/spark:3.5.0

2. 内存不足

错误Container killed due to memory usage时，增加Docker资源限制：

Linux/macOS：编辑/etc/docker/daemon.json：

{
"default-address-pools": [{"base": "172.28.0.0/16", "size": 24}],
"default-ulimits": {"memlock": -1, "nofile": 65536}
}

重启Docker服务后重试。

3. 数据持久化

默认情况下容器删除后数据丢失，需通过-v挂载卷：

docker run -d --name spark-data \
  -v spark-data:/tmp/spark-events \
  bitnami/spark:3.5.0

七、进阶建议

使用Docker Compose：通过docker-compose.yml定义多容器服务，简化集群管理。
集成Jupyter Notebook：拉取jupyter/pyspark-notebook镜像，实现交互式数据分析。
监控与日志：通过docker logs spark-master查看日志，或集成Prometheus+Grafana监控集群。

八、总结

通过Docker部署Spark单机环境，开发者可快速验证算法、调试作业，避免繁琐的环境配置。本文从镜像选择、集群启动到实战示例，提供了完整的操作流程。建议进一步探索：

使用docker-compose管理多节点集群。
结合Kubernetes实现弹性扩展。
集成Delta Lake等生态工具构建现代数据栈。

掌握Spark Docker部署技巧，将显著提升大数据开发效率！

Spark Docker 单机部署全指南：从环境搭建到实战应用