Hadoop部署单机：从零开始搭建Hadoop单机环境指南

一、单机环境部署的典型场景与价值

Hadoop作为分布式计算的标杆框架，其单机模式（Standalone Mode）通过单节点模拟分布式行为，为开发者提供轻量级的学习和测试环境。相较于集群部署，单机环境具有三大核心优势：

资源占用低：无需多节点网络配置，1台物理机或虚拟机即可运行
配置复杂度低：跳过HDFS、YARN等组件的集群协调配置
调试效率高：本地文件系统直接映射，便于问题快速定位
典型应用场景包括算法验证、MapReduce作业调试、Hive元数据测试等。据统计，超过60%的Hadoop初学者通过单机环境完成首次开发实践。

二、环境准备：系统与软件要求

2.1 操作系统选择

推荐使用CentOS 7/8或Ubuntu 20.04 LTS，需满足：

64位架构
至少4GB内存（建议8GB）
20GB以上可用磁盘空间
关闭SELinux（CentOS）或AppArmor（Ubuntu）

2.2 依赖组件安装

# CentOS 7示例
sudo yum install -y java-1.8.0-openjdk-devel wget ssh
# Ubuntu 20.04示例
sudo apt update
sudo apt install -y openjdk-8-jdk wget openssh-server

验证Java环境：

java -version
# 应输出类似：openjdk version "1.8.0_302"

2.3 用户权限配置

创建专用用户并设置sudo权限：

sudo useradd hadoop
sudo passwd hadoop
sudo visudo  # 添加 "hadoop ALL=(ALL) NOPASSWD:ALL"

三、Hadoop安装与配置

3.1 版本选择策略

推荐使用稳定版3.3.x系列，下载地址：

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.4/hadoop-3.3.4.tar.gz
tar -xzvf hadoop-3.3.4.tar.gz -C /opt/
sudo chown -R hadoop:hadoop /opt/hadoop-3.3.4

3.2 核心配置文件详解

etc/hadoop/hadoop-env.sh

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
export HADOOP_HOME=/opt/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

etc/hadoop/core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>file:///</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/tmp/hadoop</value>
  </property>
</configuration>

etc/hadoop/mapred-site.xml

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>local</value>
  </property>
</configuration>

3.3 环境变量配置

编辑~/.bashrc文件：

export HADOOP_HOME=/opt/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

执行source ~/.bashrc使配置生效。

四、启动与验证流程

4.1 格式化存储目录

hadoop namenode -format
# 观察输出中"Storage directory ... has been successfully formatted"

4.2 启动服务

start-dfs.sh  # 实际单机模式无需此步，但保持命令习惯
start-yarn.sh # 同上
# 单机模式直接使用以下命令
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar

4.3 运行示例作业

执行WordCount示例：

mkdir input
echo "Hello Hadoop" > input/file1.txt
echo "Hello World" > input/file2.txt
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount input output
cat output/*
# 应输出：
# Hello   2
# Hadoop  1
# World   1

五、常见问题解决方案

5.1 内存不足错误

修改etc/hadoop/mapred-site.xml：

<property>
  <name>mapreduce.map.memory.mb</name>
  <value>512</value>
</property>
<property>
  <name>mapreduce.reduce.memory.mb</name>
  <value>512</value>
</property>

5.2 类路径冲突

检查hadoop classpath输出，确保不包含其他Hadoop版本路径。可通过export HADOOP_CLASSPATH=清空默认类路径后重新指定。

5.3 日志分析技巧

关键日志位置：

$HADOOP_HOME/logs/
系统日志：/var/log/messages (CentOS) 或 /var/log/syslog (Ubuntu)
使用grep -i error快速定位异常。

六、进阶优化建议

数据本地化：在core-site.xml中配置：

<property>
<name>dfs.client.use.datanode.hostname</name>
<value>true</value>
</property>

监控集成：通过JMX暴露指标，配置Prometheus+Grafana监控
调试工具：使用jstack和jmap分析JVM状态

七、卸载与清理指南

# 停止所有服务
stop-yarn.sh
stop-dfs.sh
# 删除数据目录
rm -rf /tmp/hadoop
# 删除安装目录
sudo rm -rf /opt/hadoop-3.3.4
# 清理环境变量
# 手动编辑~/.bashrc删除相关配置

通过以上步骤，开发者可在2小时内完成完整的Hadoop单机环境部署。该环境不仅支持基础MapReduce作业开发，还可扩展为Hive、Pig等组件的测试平台。建议定期通过hadoop checknative命令验证本地库加载状态，确保最佳运行效率。