CentOS系统下Spark单机版部署全攻略

摘要

在大数据处理与分析领域，Apache Spark以其高效的内存计算能力和丰富的数据处理功能，成为了众多企业和开发者的首选。本文将详细阐述如何在CentOS系统上部署Spark单机版，从环境准备、安装步骤、配置优化到简单应用示例，为开发者及运维人员提供一份详尽的指南。

一、环境准备

1.1 系统要求

操作系统：CentOS 7或更高版本，推荐使用最新稳定版。
内存：至少4GB RAM，对于大型数据处理任务，建议8GB或更多。
磁盘空间：至少20GB可用空间，用于安装Spark及其依赖项。
Java环境：Spark需要Java运行环境，推荐使用OpenJDK 8或11。

1.2 安装Java

在CentOS上安装OpenJDK，可以通过yum包管理器进行：

sudo yum install java-1.8.0-openjdk-devel

安装完成后，验证Java版本：

java -version

1.3 配置SSH免密登录

Spark在运行过程中，可能会通过SSH在不同节点间通信（即使是单机版，某些组件如Spark Shell也可能使用）。因此，配置SSH免密登录可以简化操作：

ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys

二、安装Spark

2.1 下载Spark

访问Apache Spark官方网站，下载最新稳定版的Spark二进制包。选择与Hadoop兼容的版本（如果计划与Hadoop集成），或选择“Pre-built for Apache Hadoop X.Y”版本。

wget https://downloads.apache.org/spark/spark-3.3.0/spark-3.3.0-bin-hadoop3.tgz

2.2 解压并安装

将下载的Spark包解压到指定目录，如/opt：

sudo tar -xzf spark-3.3.0-bin-hadoop3.tgz -C /opt
sudo mv /opt/spark-3.3.0-bin-hadoop3 /opt/spark

2.3 设置环境变量

编辑~/.bashrc或/etc/profile文件，添加Spark的环境变量：

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

使环境变量生效：

source ~/.bashrc
# 或
source /etc/profile

三、配置Spark

3.1 配置spark-env.sh

进入Spark配置目录，复制模板文件并编辑：

cd $SPARK_HOME/conf
cp spark-env.sh.template spark-env.sh
vi spark-env.sh

在spark-env.sh中添加以下内容（根据实际情况调整）：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
export SPARK_MASTER_HOST=localhost
export SPARK_WORKER_MEMORY=2g  # 根据可用内存调整

3.2 配置log4j.properties（可选）

为了控制日志输出级别，可以编辑log4j.properties文件：

cp log4j.properties.template log4j.properties
vi log4j.properties

修改log4j.rootCategory为ERROR, console（或其他你希望的级别），以减少不必要的日志输出。

四、启动Spark

4.1 启动Spark Master

在单机环境下，Spark Master和Worker通常运行在同一节点上。启动Master：

$SPARK_HOME/sbin/start-master.sh

查看Master的Web UI，默认端口为8080，访问http://localhost:8080。

4.2 启动Spark Worker

启动Worker，连接到本地Master：

$SPARK_HOME/sbin/start-worker.sh spark://localhost:7077

同样，可以通过Web UI（默认端口8081）查看Worker状态。

五、简单应用示例

5.1 Spark Shell

启动Spark Shell，进行交互式数据分析：

$SPARK_HOME/bin/spark-shell

在Spark Shell中，可以执行Scala或Python（如果安装了PySpark）代码，例如：

val textFile = sc.textFile("README.md")
textFile.count()  // 计算文件行数

5.2 提交Spark作业

编写一个简单的Spark作业（如WordCount.scala），然后使用spark-submit提交：

// WordCount.scala
import org.apache.spark.{SparkConf, SparkContext}
object WordCount {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("WordCount").setMaster("local[*]")
    val sc = new SparkContext(conf)
    val lines = sc.textFile("README.md")
    val words = lines.flatMap(line => line.split(" "))
    val wordCounts = words.countByValue()
    wordCounts.foreach(println)
    sc.stop()
  }
}

编译并打包为JAR文件，然后提交：

$SPARK_HOME/bin/spark-submit \
  --class WordCount \
  --master local[*] \
  /path/to/your/wordcount.jar

六、总结与展望

通过上述步骤，我们成功在CentOS系统上部署了Spark单机版，并进行了简单的应用示例。Spark的强大之处在于其能够处理大规模数据集，并提供丰富的API支持多种编程语言。未来，随着数据量的不断增长和处理需求的多样化，Spark的应用场景将更加广泛。对于开发者而言，掌握Spark的部署与使用，将极大地提升数据处理与分析的能力。