一、环境准备与依赖安装

在部署Apache Spark之前，需要确保CentOS系统环境满足Spark运行的基本要求，包括Java环境、SSH服务以及必要的系统配置。

1.1 安装Java环境

Apache Spark依赖Java运行环境，推荐使用OpenJDK或Oracle JDK。以下以OpenJDK为例，介绍安装步骤：

# 更新系统包索引
sudo yum update -y
# 安装OpenJDK 8
sudo yum install java-1.8.0-openjdk-devel -y
# 验证安装
java -version

安装完成后，通过java -version命令验证Java版本，确保输出显示OpenJDK 8已正确安装。

1.2 配置SSH免密登录

Spark在运行过程中，Master节点与Worker节点之间通过SSH通信。在单机环境下，虽然仅有一个节点，但仍需配置SSH免密登录以简化操作。

# 生成SSH密钥对
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
# 将公钥添加到授权列表
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
# 设置权限
chmod 600 ~/.ssh/authorized_keys
chmod 700 ~/.ssh
# 验证SSH免密登录
ssh localhost

通过上述步骤，确保当前用户可以无需密码登录本机。

1.3 系统配置优化

为提高Spark运行效率，建议对系统参数进行优化，包括但不限于内存分配、文件描述符限制等。

# 编辑/etc/sysctl.conf，增加以下内容
echo "vm.swappiness = 10" >> /etc/sysctl.conf
echo "fs.file-max = 65536" >> /etc/sysctl.conf
# 应用配置
sudo sysctl -p
# 编辑/etc/security/limits.conf，增加以下内容（针对当前用户）
echo "* soft nofile 65536" >> /etc/security/limits.conf
echo "* hard nofile 65536" >> /etc/security/limits.conf
echo "* soft nproc 65536" >> /etc/security/limits.conf
echo "* hard nproc 65536" >> /etc/security/limits.conf

重启系统或重新登录以使配置生效。

二、Spark安装与配置

2.1 下载Spark二进制包

访问Apache Spark官方网站，下载最新稳定版本的二进制包。这里以Spark 3.x版本为例：

# 下载Spark二进制包
wget https://archive.apache.org/dist/spark/spark-3.5.0/spark-3.5.0-bin-hadoop3.tgz
# 解压到指定目录
tar -xzf spark-3.5.0-bin-hadoop3.tgz -C /opt/
# 创建软链接，便于后续升级
ln -s /opt/spark-3.5.0-bin-hadoop3 /opt/spark

2.2 配置环境变量

编辑~/.bashrc或/etc/profile文件，添加Spark相关环境变量：

echo "export SPARK_HOME=/opt/spark" >> ~/.bashrc
echo "export PATH=\$PATH:\$SPARK_HOME/bin:\$SPARK_HOME/sbin" >> ~/.bashrc
source ~/.bashrc

2.3 配置Spark

编辑$SPARK_HOME/conf/spark-env.sh文件（若不存在，可从spark-env.sh.template复制），添加以下配置：

# 复制模板文件
cp $SPARK_HOME/conf/spark-env.sh.template $SPARK_HOME/conf/spark-env.sh
# 编辑spark-env.sh
echo "export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk" >> $SPARK_HOME/conf/spark-env.sh
echo "export SPARK_MASTER_HOST=localhost" >> $SPARK_HOME/conf/spark-env.sh
echo "export SPARK_WORKER_MEMORY=2g" >> $SPARK_HOME/conf/spark-env.sh  # 根据实际内存调整

同时，编辑$SPARK_HOME/conf/slaves文件（单机环境下可留空或仅包含localhost），指定Worker节点。

三、启动与测试

3.1 启动Spark集群

在单机环境下，Spark集群仅包含一个Master节点和一个Worker节点。使用以下命令启动：

# 启动Master节点
$SPARK_HOME/sbin/start-master.sh
# 启动Worker节点
$SPARK_HOME/sbin/start-slave.sh spark://localhost:7077

通过jps命令检查Java进程，应能看到Master和Worker进程。

3.2 访问Web UI

Spark提供了Web界面，用于监控集群状态。访问http://localhost:8080（Master节点UI）和http://localhost:8081（Worker节点UI），查看集群运行状态。

3.3 运行示例程序

为验证Spark是否正确安装，可运行一个简单的示例程序，如计算π的近似值：

# 进入Spark安装目录
cd $SPARK_HOME
# 运行示例程序
bin/spark-submit --class org.apache.spark.examples.SparkPi \
--master spark://localhost:7077 \
examples/jars/spark-examples_*.jar \
1000

程序运行完成后，控制台将输出π的近似值，验证Spark功能正常。

四、常见问题与解决方案

4.1 内存不足错误

若遇到内存不足错误，可通过调整$SPARK_HOME/conf/spark-env.sh中的SPARK_WORKER_MEMORY参数解决。同时，确保系统有足够的物理内存和交换空间。

4.2 网络连接问题

确保防火墙未阻止Spark使用的端口（如7077、8080、8081）。可通过以下命令检查并开放端口：

# 查看防火墙状态
sudo firewall-cmd --state
# 开放端口（临时）
sudo firewall-cmd --add-port={7077,8080,8081}/tcp --permanent
# 重新加载防火墙规则
sudo firewall-cmd --reload

4.3 日志分析

Spark运行过程中产生的日志位于$SPARK_HOME/logs/目录下。遇到问题时，可分析相关日志文件，定位问题原因。

五、总结与展望

本文详细介绍了在CentOS单机环境下部署Apache Spark的全过程，包括环境准备、安装、配置与测试。通过遵循本文的指导，开发者可以快速搭建起一个功能完善的Spark单机环境，为后续的数据处理与分析工作打下坚实基础。未来，随着数据量的不断增长和处理需求的日益复杂，Spark的集群部署和优化将成为重要议题。

Spark在CentOS单机环境下的部署指南