Hadoop单机部署全指南：从配置到验证的完整实践

一、单机部署的核心价值与适用场景

Hadoop单机部署（Standalone Mode）是Hadoop分布式框架的轻量化运行模式，其核心价值在于快速验证功能与降低学习成本。相较于集群模式，单机部署无需配置多节点网络通信，避免了复杂的分布式协调问题，特别适用于以下场景：

本地开发测试：开发者可在个人电脑或小型服务器上快速搭建环境，验证MapReduce程序、HDFS文件操作等核心功能。
教学演示：高校或培训机构可通过单机模式展示Hadoop的基本架构与运行机制，降低硬件门槛。
轻量级数据处理：对于数据量较小（如GB级以下）且无需高并发的场景，单机模式可满足基础分析需求。

需注意的是，单机模式不支持高可用与横向扩展，其性能受限于单台机器的CPU、内存和磁盘I/O，因此不适用于生产环境。

二、环境准备与依赖安装

1. 操作系统与Java环境

Hadoop 3.x版本推荐使用Linux系统（如Ubuntu 20.04 LTS或CentOS 8），Windows系统需通过WSL2或Cygwin模拟Linux环境。Java是Hadoop的运行基础，需安装JDK 8或11（Hadoop 3.3+不再支持JDK 7）：

# Ubuntu示例：安装OpenJDK 11
sudo apt update
sudo apt install openjdk-11-jdk
# 验证安装
java -version
# 输出应包含：openjdk version "11.0.xx"

2. Hadoop二进制包获取

从Apache官网下载稳定版Hadoop（如3.3.6）：

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -xzvf hadoop-3.3.6.tar.gz -C /opt/
sudo ln -s /opt/hadoop-3.3.6 /opt/hadoop  # 创建软链接便于管理

3. 环境变量配置

编辑~/.bashrc文件，添加Hadoop路径与JAVA_HOME：

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64  # 根据实际路径调整
source ~/.bashrc

三、核心配置文件调整

1. hadoop-env.sh：Java路径指定

修改$HADOOP_HOME/etc/hadoop/hadoop-env.sh，取消注释并修改JAVA_HOME：

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64

2. core-site.xml：HDFS基础配置

定义HDFS的默认命名空间与临时目录：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/tmp/hadoop</value>
    </property>
</configuration>

3. hdfs-site.xml：副本数与权限控制

单机模式下副本数应设为1（默认3），并禁用权限检查以简化操作：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>
</configuration>

4. mapred-site.xml：MapReduce运行模式

指定MapReduce框架为本地模式（实际单机部署中可省略，默认使用本地JobRunner）：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>local</value>
    </property>
</configuration>

四、启动与验证流程

1. 格式化HDFS文件系统

首次启动前需格式化命名空间（会清空hadoop.tmp.dir目录）：

hdfs namenode -format
# 输出应包含：Storage directory /tmp/hadoop/dfs/name has been successfully formatted.

2. 启动HDFS与YARN服务

单机模式下可选择性启动YARN（用于资源管理）：

# 启动HDFS
start-dfs.sh
# 启动YARN（可选）
start-yarn.sh
# 验证进程
jps
# 应看到：NameNode、DataNode、SecondaryNameNode（HDFS）；ResourceManager、NodeManager（YARN）

3. 基础功能测试

HDFS操作测试：

# 创建目录并上传文件
hdfs dfs -mkdir /test
hdfs dfs -put ~/.bashrc /test/
# 查看文件
hdfs dfs -ls /test
hdfs dfs -cat /test/.bashrc

MapReduce示例运行：

# 编译并打包官方示例
cd $HADOOP_HOME/share/hadoop/mapreduce
hadoop com.sun.tools.javac.Main WordCount.java
jar cf wc.jar WordCount*.class
# 运行WordCount程序
hadoop jar wc.jar WordCount /test/.bashrc /test/output
# 查看结果
hdfs dfs -cat /test/output/part-r-00000

五、常见问题与解决方案

1. 端口冲突

若报错Address already in use，检查9000（NameNode）、50070（Web UI）等端口是否被占用：

netstat -tulnp | grep 9000
# 终止冲突进程或修改配置文件中的端口号

2. 权限拒绝

若出现Permission denied，需确保：

运行用户对hadoop.tmp.dir有读写权限。
关闭SELinux（CentOS）：setenforce 0。

3. 内存不足

单机模式默认分配资源较少，可通过修改mapred-site.xml调整：

<property>
    <name>mapreduce.map.memory.mb</name>
    <value>512</value>
</property>
<property>
    <name>mapreduce.reduce.memory.mb</name>
    <value>1024</value>
</property>

六、进阶优化建议

日志管理：修改log4j.properties将日志输出至指定文件，避免控制台混乱。

数据压缩：在core-site.xml中启用Snappy压缩以减少I/O开销：

<property>
    <name>io.compression.codecs</name>
    <value>org.apache.hadoop.io.compress.SnappyCodec</value>
</property>

Web UI访问：通过浏览器访问http://localhost:9870（HDFS）和http://localhost:8088（YARN）查看监控信息。

七、总结与扩展

Hadoop单机部署是理解分布式计算原理的绝佳起点，通过本文的配置与验证流程，开发者可快速掌握HDFS、MapReduce等核心组件的运行机制。后续可进一步探索：

伪分布式模式（Pseudo-Distributed Mode）：模拟多节点环境，为集群部署做准备。
与Spark、Hive等生态工具集成，构建完整的数据处理栈。
容器化部署（如Docker），实现环境的快速复用与迁移。

通过持续实践与优化，单机部署将成为您探索大数据技术的坚实基石。