一、环境准备与版本适配

1.1 基础环境要求

推荐使用CentOS 7/8、Ubuntu 20.04+或Rocky Linux 8等主流Linux发行版，需确保系统已安装以下组件：

Hadoop 3.1.x（已部署HDFS/YARN服务）
Java JDK 8或更高版本（建议OpenJDK）
基础开发工具包（gcc、make等）
网络配置：固定IP地址（示例使用192.168.0.110）

1.2 版本兼容性说明

Spark 3.1.2与Hadoop 3.1.x存在最佳兼容性，需特别注意：

Spark预编译包需选择”with Hadoop 3.2”版本（官方提供兼容性支持）
避免使用Hadoop 2.x与Spark 3.x的组合
推荐使用LTS（长期支持）版本降低维护成本

二、安装部署流程

2.1 下载与解压

通过官方镜像站获取安装包（示例使用wget模拟下载）：

# 创建安装目录
sudo mkdir -p /opt/module
cd /opt/module
# 下载Spark二进制包（实际需替换为有效下载链接）
wget https://archive.apache.org/dist/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
# 解压并重命名目录
tar -zxvf spark-3.1.2-bin-hadoop3.2.tgz
mv spark-3.1.2-bin-hadoop3.2 spark-3.1.2

2.2 目录结构规范

建议采用标准化的目录布局：

/opt/module/spark-3.1.2/
├── bin/          # 可执行脚本
├── conf/         # 配置文件
├── examples/     # 示例程序
├── jars/         # 依赖库
├── logs/         # 运行日志
└── sbin/         # 管理脚本

三、系统配置优化

3.1 环境变量设置

编辑用户配置文件（~/.bashrc或~/.bash_profile）：

# Spark环境变量
export SPARK_HOME=/opt/module/spark-3.1.2
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export HADOOP_CONF_DIR=/opt/module/hadoop/etc/hadoop  # 重要：指定Hadoop配置路径
# 使配置生效
source ~/.bashrc

3.2 核心配置文件修改

spark-env.sh配置

cp $SPARK_HOME/conf/spark-env.sh.template $SPARK_HOME/conf/spark-env.sh
vi $SPARK_HOME/conf/spark-env.sh

添加以下关键参数：

# 指定Java安装路径
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
# Spark Master节点配置
export SPARK_MASTER_HOST=192.168.0.110
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8080
# Worker节点配置（单机模式可省略）
# export SPARK_WORKER_CORES=2
# export SPARK_WORKER_MEMORY=2g

slaves文件配置（单机模式）

echo "localhost" > $SPARK_HOME/conf/slaves

3.3 日志配置优化

修改log4j.properties提升调试效率：

# 修改日志级别为WARN
log4j.rootCategory=WARN, console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout

四、服务启动与验证

4.1 启动流程

# 启动Master节点
$SPARK_HOME/sbin/start-master.sh
# 启动Worker节点（单机模式）
$SPARK_HOME/sbin/start-slave.sh spark://192.168.0.110:7077
# 验证进程状态
jps | grep -E 'Master|Worker'

4.2 Web监控界面

访问以下URL查看集群状态：

http://192.168.0.110:8080

正常界面应显示：

Master节点状态（ALIVE）
可用资源信息（CPU/内存）
Worker节点连接状态

4.3 运行测试任务

# 进入Spark示例目录
cd $SPARK_HOME/examples/jars
# 运行计算π的示例
$SPARK_HOME/bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master spark://192.168.0.110:7077 \
  --executor-memory 512M \
  --total-executor-cores 2 \
  spark-examples_2.12-3.1.2.jar 1000

五、常见问题处理

5.1 端口冲突解决方案

端口	用途	冲突表现
7077	Master RPC	Connection refused
8080	Web UI	页面无法加载
8081	Worker UI	404错误

处理步骤：

使用netstat -tulnp | grep <端口>检查占用
修改spark-env.sh中的对应端口参数
重启Spark服务

5.2 内存配置建议

根据机器配置调整以下参数：

# spark-defaults.conf
spark.driver.memory 2g
spark.executor.memory 2g
spark.executor.cores 2

5.3 Hadoop集成问题

若出现HDFS访问异常：

确认HADOOP_CONF_DIR路径正确
检查core-site.xml/hdfs-site.xml配置
验证Hadoop服务状态：hdfs dfsadmin -report

六、进阶配置建议

6.1 历史服务器配置

启用Spark History Server记录作业历史：

# 修改spark-defaults.conf
spark.eventLog.enabled true
spark.eventLog.dir hdfs://namenode:8020/spark-logs
spark.history.fs.logDirectory hdfs://namenode:8020/spark-logs
# 启动历史服务
$SPARK_HOME/sbin/start-history-server.sh

6.2 高可用部署

生产环境建议配置：

使用Zookeeper实现Master HA
配置多个Worker节点

启用动态资源分配：

spark.dynamicAllocation.enabled true
spark.shuffle.service.enabled true

6.3 性能调优参数

# 序列化优化
spark.serializer org.apache.spark.serializer.KryoSerializer
# 数据本地化
spark.locality.wait 3s
# 广播变量优化
spark.broadcast.blockSize 4M

七、卸载与清理

完整卸载流程：

# 停止所有服务
$SPARK_HOME/sbin/stop-all.sh
# 删除安装目录
sudo rm -rf /opt/module/spark-3.1.2
# 清理环境变量
vi ~/.bashrc  # 删除相关export语句
source ~/.bashrc

本文提供的部署方案经过实际环境验证，可帮助开发者快速搭建Spark单机开发环境。对于生产环境部署，建议在此基础上增加监控告警、备份恢复等企业级特性。实际开发中，可结合对象存储服务构建完整的大数据处理流水线，满足多样化的业务需求。

Linux环境下Spark单机模式部署全流程指南（适配Hadoop 3.1+）