一、为什么选择Spark Docker单机部署？

Apache Spark作为分布式计算框架，传统部署方式需配置Hadoop集群、ZooKeeper等组件，对开发者环境要求较高。而Docker单机部署通过容器化技术将Spark运行环境封装为独立镜像，具有以下优势：

轻量级隔离：避免依赖冲突，每个容器拥有独立的文件系统和网络环境。
快速复现：通过镜像文件可一键还原开发环境，解决“本地运行正常但部署失败”的痛点。
资源可控：单机模式下可通过Docker限制CPU/内存使用，适合测试和小规模数据处理。
跨平台兼容：无论开发机是Windows、macOS还是Linux，均可通过Docker运行相同的Spark环境。

二、环境准备与镜像选择

1. 基础环境要求

Docker版本：建议使用Docker Desktop（Windows/macOS）或Docker CE（Linux），版本≥20.10。
系统资源：至少4GB内存（建议8GB+），2核CPU，预留10GB磁盘空间。
网络配置：确保主机可访问Docker Hub（或私有镜像仓库）。

2. 官方镜像与第三方镜像对比

Apache Spark官方在Docker Hub提供了bitnami/spark镜像，但功能较为基础。推荐使用以下优化镜像：

bde2020/spark-base：预装Hadoop和Python，适合PySpark开发。
jupyter/pyspark-notebook：集成Jupyter Lab，支持交互式数据分析。
自定义镜像：通过Dockerfile构建，可添加特定依赖（如JDBC驱动、机器学习库）。

示例Dockerfile：

FROM bde2020/spark-base:3.3.0-hadoop3.3
# 添加MySQL JDBC驱动
COPY mysql-connector-java-8.0.28.jar /opt/spark/jars/
# 设置时区（避免日志时间错乱）
RUN ln -sf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

三、单机部署详细步骤

1. 拉取镜像并运行容器

# 拉取官方镜像（以3.3.0版本为例）
docker pull bitnami/spark:3.3.0
# 启动Master节点（单机模式需禁用Worker）
docker run -d --name spark-master \
  -p 8080:8080 -p 7077:7077 \
  -e SPARK_MODE=master \
  bitnami/spark:3.3.0
# 启动Worker节点（单机测试可跳过）
# docker run -d --name spark-worker \
#   -e SPARK_MODE=worker \
#   -e SPARK_MASTER_URL=spark://<主机IP>:7077 \
#   bitnami/spark:3.3.0

2. 配置优化

内存限制：通过-e SPARK_WORKER_MEMORY=2g限制Worker内存。
日志级别调整：在spark-defaults.conf中设置spark.eventLog.enabled=true和spark.eventLog.dir=/tmp/spark-events。
网络模式：使用--network host避免端口映射问题（Linux专用）。

3. 验证部署

访问http://localhost:8080查看Spark Web UI，确认Master状态为ALIVE。执行以下命令测试：

docker exec -it spark-master bash
# 在容器内执行
spark-submit --class org.apache.spark.examples.SparkPi \
  --master local[2] \
  /opt/bitnami/spark/examples/jars/spark-examples_*.jar 100

四、实战案例：PySpark数据分析

1. 使用Jupyter交互式开发

# 启动集成Jupyter的容器
docker run -d --name pyspark-notebook \
  -p 8888:8888 -p 4040:4040 \
  -v $(pwd):/home/jovyan/work \
  jupyter/pyspark-notebook:spark-3.3.0

在Jupyter中创建Notebook，执行以下代码：

from pyspark.sql import SparkSession
spark = SparkSession.builder \
    .appName("WordCount") \
    .master("local[*]") \
    .getOrCreate()
# 读取文本文件并统计词频
text = spark.read.text("/work/sample.txt")
words = text.selectExpr("explode(split(value, ' ')) as word")
word_counts = words.groupBy("word").count()
word_counts.show()

2. 提交Spark作业到本地集群

# 打包应用为JAR文件（假设使用Maven）
mvn package
# 提交作业到本地模式
docker exec spark-master spark-submit \
  --class com.example.Main \
  --master local[4] \
  /opt/spark/examples/my-app.jar

五、常见问题与解决方案

端口冲突：确保主机8080、7077、4040等端口未被占用。
内存不足：通过-e SPARK_DAEMON_MEMORY=1g调整Master内存。
文件权限问题：使用-v /host/path:/container/path:ro以只读方式挂载数据卷。
网络连接失败：检查防火墙设置，或使用--network bridge明确指定网络模式。

六、进阶技巧

多版本共存：通过不同容器名称和端口映射同时运行Spark 2.x和3.x。
GPU加速：使用nvidia/cuda基础镜像构建支持GPU的Spark镜像。
监控集成：通过Prometheus+Grafana监控容器内Spark指标。

七、总结

通过Docker实现Spark单机部署，开发者可以以极低的成本获得完整的Spark运行环境。本文从镜像选择、配置优化到实战案例，系统阐述了部署流程中的关键点。建议初学者先从官方镜像入手，逐步过渡到自定义镜像，最终结合CI/CD工具实现自动化部署。对于生产环境，可进一步探索Kubernetes上的Spark Operator部署方案。

Spark Docker 单机部署全攻略：从环境搭建到实战应用