一、为什么选择在Mac上部署单机Hadoop？

Hadoop作为大数据领域的核心框架，其单机部署模式尤其适合以下场景：

本地开发与测试：开发者无需依赖云服务器即可快速验证算法或数据流逻辑
教学与学习：通过物理机部署能更直观地理解Hadoop的架构原理
轻量级数据处理：处理GB级数据时，单机模式比集群更节省资源

Mac系统凭借其Unix内核特性，在部署Hadoop时具有显著优势：

原生支持终端操作，减少环境适配成本
稳定的系统环境避免Windows常见的权限问题
完善的包管理工具（Homebrew）简化依赖安装

二、部署前的环境准备

1. 系统要求验证

硬件配置：建议8GB以上内存（处理1GB数据块时需预留4GB内存）
系统版本：macOS 10.14（Mojave）及以上版本
磁盘空间：至少20GB可用空间（包含数据存储空间）

验证命令示例：

# 查看系统版本
sw_vers
# 检查可用内存
vm_stat | perl -ne '/page size of (\d+)/ && $size=$1; /Pages free:\s+(\d+)/ && print "Free RAM: ",$1*$size/1024/1024,"GB\n";'

2. 必备工具安装

Java环境配置

Hadoop 3.x要求Java 8/11，推荐使用OpenJDK：

# 通过Homebrew安装OpenJDK 11
brew install openjdk@11
# 设置环境变量（添加到~/.zshrc）
echo 'export PATH="/usr/local/opt/openjdk@11/bin:$PATH"' >> ~/.zshrc
source ~/.zshrc
# 验证安装
java -version

SSH服务配置

Hadoop依赖SSH进行节点通信，需生成密钥对并配置免密登录：

# 生成SSH密钥（默认存储在~/.ssh/）
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
# 将公钥添加到授权列表
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
# 测试SSH连接
ssh localhost

三、Hadoop安装与配置

1. 下载与解压

从Apache官网获取稳定版Hadoop（推荐3.3.6）：

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -xzf hadoop-3.3.6.tar.gz -C /usr/local/
ln -s /usr/local/hadoop-3.3.6 /usr/local/hadoop

2. 环境变量配置

编辑~/.zshrc文件添加以下内容：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

3. 核心配置文件修改

hadoop-env.sh

指定Java路径并调整内存参数：

export JAVA_HOME=/usr/local/opt/openjdk@11
export HADOOP_HEAPSIZE=2048  # 设置JVM堆大小

core-site.xml

配置HDFS默认路径和端口：

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/usr/local/hadoop/tmp</value>
  </property>
</configuration>

hdfs-site.xml

设置副本数为1（单机模式）：

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
</configuration>

mapred-site.xml

配置MapReduce运行框架：

<configuration>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

yarn-site.xml

设置资源管理器地址：

<configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>localhost</value>
  </property>
</configuration>

四、启动与验证

1. 格式化HDFS

首次启动前需格式化命名空间：

hdfs namenode -format
# 成功输出应包含"Storage directory ... has been successfully formatted"

2. 启动服务

按顺序启动以下服务：

# 启动HDFS
start-dfs.sh
# 启动YARN
start-yarn.sh
# 验证进程状态
jps
# 应看到NameNode、DataNode、ResourceManager、NodeManager进程

3. 基础操作验证

Web界面访问

HDFS管理界面：http://localhost:9870
YARN资源管理：http://localhost:8088

命令行操作示例

# 创建HDFS目录
hdfs dfs -mkdir /input
# 上传本地文件
hdfs dfs -put ~/test.txt /input
# 运行示例WordCount
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output
# 查看结果
hdfs dfs -cat /output/part-r-00000

五、常见问题解决方案

1. 端口冲突处理

若遇到Address already in use错误，可通过以下步骤解决：

使用lsof -i :端口号查找占用进程
终止冲突进程或修改Hadoop配置中的端口号

2. 权限拒绝问题

当出现Permission denied时，需检查：

HDFS目录权限：hdfs dfs -chmod -R 777 /（测试环境临时方案）
本地文件系统权限：确保Hadoop用户对$HADOOP_HOME/tmp有读写权限

3. 内存不足优化

通过修改mapred-site.xml调整容器内存：

<property>
  <name>mapreduce.map.memory.mb</name>
  <value>1024</value>
</property>
<property>
  <name>mapreduce.reduce.memory.mb</name>
  <value>2048</value>
</property>

六、进阶使用建议

数据本地化：将处理数据存储在HDFS本地目录（/usr/local/hadoop/data）以提升性能
日志分析：通过$HADOOP_HOME/logs/目录下的日志文件排查问题
性能调优：修改hadoop-env.sh中的HADOOP_OPTS参数优化GC行为
版本管理：使用git管理配置文件，便于环境迁移

七、卸载与清理

当需要重置环境时，执行以下步骤：

# 停止所有服务
stop-yarn.sh
stop-dfs.sh
# 删除数据目录
rm -rf /usr/local/hadoop/tmp
rm -rf /usr/local/hadoop/data
# 可选：删除安装目录
rm -rf /usr/local/hadoop-3.3.6

通过以上完整流程，开发者可以在Mac系统上快速搭建功能完备的单机Hadoop环境。该部署方案既适合大数据技术入门学习，也可作为中小规模数据处理的开发测试平台。实际使用中，建议结合具体业务场景进行参数调优，以获得最佳性能表现。

在Mac上部署单机Hadoop：从零开始的完整指南