一、为什么选择在Mac上部署单机Hadoop？

Hadoop作为大数据生态的核心框架，其单机模式特别适合开发者进行本地开发与测试。相较于Linux服务器环境，Mac系统具备以下优势：

开发友好性：Mac的Unix内核与Linux高度兼容，终端操作体验一致
硬件资源可控：开发者可自由配置内存、磁盘等资源
开发效率提升：集成开发环境（IDE）与Hadoop的兼容性更佳
学习成本降低：无需维护远程服务器，适合教学与原型开发

典型应用场景包括：算法验证、MapReduce程序调试、HDFS文件系统操作练习等。对于企业开发者而言，单机模式可快速验证数据处理逻辑，避免集群环境下的复杂配置问题。

二、环境准备：前置条件检查

1. 系统要求

macOS 10.14（Mojave）或更高版本
至少8GB内存（推荐16GB）
20GB以上可用磁盘空间
稳定的网络连接（用于下载依赖）

2. 必备工具安装

Java环境配置

Hadoop 3.x需要Java 8/11，推荐使用OpenJDK：

# 使用Homebrew安装OpenJDK 11
brew install --cask temurin11
# 验证安装
java -version
# 配置JAVA_HOME环境变量
echo 'export JAVA_HOME=/Library/Java/JavaVirtualMachines/temurin-11.jdk/Contents/Home' >> ~/.zshrc
source ~/.zshrc

Homebrew包管理器

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

SSH服务配置

Hadoop依赖SSH进行节点间通信，需生成密钥对：

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
# 验证SSH连接
ssh localhost

三、Hadoop安装与配置

1. 下载与解压

从Apache官网获取稳定版（推荐3.3.6）：

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -xzf hadoop-3.3.6.tar.gz -C /usr/local/
cd /usr/local/
sudo mv hadoop-3.3.6 hadoop
sudo chown -R $(whoami) hadoop

2. 环境变量配置

编辑~/.zshrc文件：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

3. 核心配置文件修改

hadoop-env.sh

vi $HADOOP_HOME/etc/hadoop/hadoop-env.sh
# 添加以下行（指定Java路径）
export JAVA_HOME=/Library/Java/JavaVirtualMachines/temurin-11.jdk/Contents/Home

core-site.xml

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/local/hadoop/tmp</value>
  </property>
</configuration>

hdfs-site.xml

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value> <!-- 单机模式设为1 -->
  </property>
  <property>
    <name>dfs.namenode.name.dir</name>
    <value>/usr/local/hadoop/data/namenode</value>
  </property>
  <property>
    <name>dfs.datanode.data.dir</name>
    <value>/usr/local/hadoop/data/datanode</value>
  </property>
</configuration>

mapred-site.xml（需从模板复制）

cp $HADOOP_HOME/etc/hadoop/mapred-site.xml.template $HADOOP_HOME/etc/hadoop/mapred-site.xml

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

yarn-site.xml

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.env-whitelist</name>
    <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCLASSPATH,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
  </property>
</configuration>

四、启动与验证

1. 格式化HDFS

hdfs namenode -format
# 成功输出应包含：
# "Storage directory /usr/local/hadoop/data/namenode has been successfully formatted"

2. 启动服务

# 启动HDFS
$HADOOP_HOME/sbin/start-dfs.sh
# 启动YARN
$HADOOP_HOME/sbin/start-yarn.sh
# 验证进程
jps
# 应看到以下进程：
# NameNode, DataNode, ResourceManager, NodeManager, SecondaryNameNode

3. 基础操作验证

创建HDFS目录

hdfs dfs -mkdir /user
hdfs dfs -mkdir /user/$(whoami)

上传测试文件

echo "Hello Hadoop" > test.txt
hdfs dfs -put test.txt /user/$(whoami)/
hdfs dfs -ls /user/$(whoami)/

运行示例MapReduce

# 编译Hadoop自带的示例
cd $HADOOP_HOME/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-3.3.6.jar pi 2 5
# 输出应包含：
# "Estimated value of Pi is 3.20000000000000000000"

五、常见问题解决方案

1. 端口冲突问题

现象：启动时提示”Address already in use”
解决：

# 查找占用端口的进程
lsof -i :9000  # HDFS默认端口
lsof -i :8088  # YARN ResourceManager端口
# 终止冲突进程
kill -9 <PID>

2. 权限拒绝错误

现象：Permission denied错误
解决：

# 检查HDFS目录权限
hdfs dfs -ls /
# 修改权限（谨慎操作）
hdfs dfs -chmod -R 777 /user/$(whoami)

3. 内存不足问题

现象：Java堆内存溢出
解决：
修改$HADOOP_HOME/etc/hadoop/mapred-site.xml：

<property>
  <name>mapreduce.map.memory.mb</name>
  <value>1024</value>
</property>
<property>
  <name>mapreduce.reduce.memory.mb</name>
  <value>2048</value>
</property>

4. 版本兼容性问题

现象：运行时报类找不到错误
解决：

确保Hadoop版本与Java版本匹配（Hadoop 3.x支持Java 8/11）
检查HADOOP_CLASSPATH是否包含所有依赖jar包

六、进阶配置建议

1. 性能优化

调整hdfs-site.xml中的块大小：

<property>
<name>dfs.blocksize</name>
<value>134217728</value> <!-- 128MB -->
</property>

配置内存回收策略：

<property>
<name>dfs.namenode.handler.count</name>
<value>10</value> <!-- 根据CPU核心数调整 -->
</property>

2. 日志管理

配置日志滚动策略：

<!-- 在log4j.properties中添加 -->
log4j.appender.DRFA=org.apache.log4j.DailyRollingFileAppender
log4j.appender.DRFA.File=${hadoop.log.dir}/hadoop-${user.name}-namenode-${hostname}.log
log4j.appender.DRFA.DatePattern=.yyyy-MM-dd

3. 监控集成

推荐使用Ganglia或Prometheus+Grafana监控：

# 安装Ganglia（需额外配置）
brew install ganglia

七、卸载与清理

当需要重新配置或卸载时：

# 停止所有服务
$HADOOP_HOME/sbin/stop-yarn.sh
$HADOOP_HOME/sbin/stop-dfs.sh
# 删除数据目录
rm -rf /usr/local/hadoop/data
rm -rf /usr/local/hadoop/tmp
# 删除安装目录（可选）
rm -rf /usr/local/hadoop
# 清理环境变量
sed -i '' '/HADOOP_HOME/d' ~/.zshrc
sed -i '' '/export PATH.*hadoop/d' ~/.zshrc

八、总结与最佳实践

版本选择：推荐使用Hadoop 3.3.x LTS版本
资源分配：为NameNode分配至少2GB内存
数据备份：定期备份namenode的元数据（$HADOOP_HOME/data/namenode/current）
开发规范：
- 避免在HDFS存储大量小文件
- 使用hdfs dfs -expunge定期清理回收站
- 为MapReduce作业设置合理的内存限制

通过以上步骤，开发者可在Mac上快速搭建功能完整的单机Hadoop环境。这种配置不仅适合学习Hadoop核心机制，还能有效支持中小规模数据处理任务的原型开发。对于更复杂的场景，可考虑使用Docker容器化部署或升级到伪分布式模式。

在Mac上部署单机Hadoop：从零开始的完整指南