一、单机Hadoop部署的核心价值与适用场景

在Mac上部署单机版Hadoop的核心意义在于为开发者提供轻量级的大数据实验环境。相较于传统Linux集群部署，单机模式具有资源占用低、配置简单、调试便捷等优势，尤其适合以下场景：

本地开发测试：在代码提交前验证MapReduce程序逻辑
教学演示：高校计算机课程中的分布式计算入门教学
原型验证：快速验证HDFS存储方案或Hive查询性能
个人学习：大数据技术栈（Hadoop/Spark/Hive）的自学实践

需特别注意单机模式与生产集群的本质差异：缺少高可用设计、数据分片限制、性能瓶颈明显。因此该方案仅适用于开发测试阶段，不可直接用于生产环境。

二、环境准备：系统要求与依赖安装

2.1 系统兼容性检查

macOS版本需满足：

推荐macOS Monterey 12.x及以上版本
至少8GB内存（建议16GB+）
50GB+可用磁盘空间
关闭SIP（系统完整性保护）的特殊需求（后续配置说明）

验证命令：

sw_vers  # 查看系统版本
sysctl hw.memsize  # 检查内存
df -h  # 查看磁盘空间

2.2 开发工具链配置

Java环境安装

Hadoop 3.x要求Java 8/11，推荐使用AdoptOpenJDK：

# 使用Homebrew安装
brew install --cask temurin8  # 或temurin11
# 验证安装
java -version
echo $JAVA_HOME  # 应输出/Library/Java/JavaVirtualMachines/...

SSH服务配置

Hadoop依赖本地SSH连接，需生成密钥并配置免密登录：

# 生成密钥（默认存储在~/.ssh/id_rsa）
ssh-keygen -t rsa
# 添加公钥到授权列表
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 600 ~/.ssh/authorized_keys
# 测试连接
ssh localhost

若遇到ssh: connect to host localhost port 22: Connection refused错误，需手动启动SSH服务：

sudo launchctl load -w /System/Library/LaunchDaemons/ssh.plist

2.3 Hadoop二进制包获取

推荐从Apache官方下载稳定版（如3.3.6）：

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
tar -xzvf hadoop-3.3.6.tar.gz -C /usr/local/
sudo ln -s /usr/local/hadoop-3.3.6 /usr/local/hadoop

三、核心配置文件详解与优化

3.1 环境变量设置

编辑~/.zshrc（或~/.bash_profile）：

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

生效配置：

source ~/.zshrc

3.2 关键配置文件修改

hadoop-env.sh

设置JAVA_HOME并调整内存参数：

export JAVA_HOME=$(/usr/libexec/java_home -v 1.8)
export HADOOP_HEAPSIZE=2048  # 默认1000MB
export HADOOP_OPTS="-Djava.net.preferIPv4Stack=true"

core-site.xml

配置HDFS默认名称节点：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop/tmp</value>
    </property>
</configuration>

hdfs-site.xml

设置副本数为1（单机模式必需）：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/data/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/data/datanode</value>
    </property>
</configuration>

mapred-site.xml

指定YARN为执行框架：

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

yarn-site.xml

配置资源管理器：

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCLASSPATH,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

四、服务启动与验证流程

4.1 格式化HDFS

首次启动前必须执行：

hdfs namenode -format

成功输出应包含：Storage directory /usr/local/hadoop/data/namenode has been successfully formatted

4.2 启动服务

推荐使用启动脚本：

# 启动HDFS
$HADOOP_HOME/sbin/start-dfs.sh
# 启动YARN
$HADOOP_HOME/sbin/start-yarn.sh
# 或一次性启动所有服务
$HADOOP_HOME/sbin/start-all.sh

验证进程状态：

jps  # 应看到NameNode、DataNode、ResourceManager、NodeManager等进程

4.3 基础功能测试

Web UI访问

HDFS管理界面：http://localhost:9870
YARN资源管理：http://localhost:8088

示例程序运行

# 创建输入目录
hdfs dfs -mkdir -p /user/input
# 上传测试文件
echo "Hello Hadoop" > test.txt
hdfs dfs -put test.txt /user/input
# 运行wordcount示例
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /user/input /user/output
# 查看结果
hdfs dfs -cat /user/output/part-r-00000

五、常见问题解决方案

5.1 端口冲突处理

典型错误：Port 8080 already in use
解决方案：

查找占用进程：lsof -i :8080

终止进程或修改Hadoop配置：

<!-- 在yarn-site.xml中修改 -->
<property>
 <name>yarn.resourcemanager.webapp.address</name>
 <value>localhost:8088</value>
</property>

5.2 权限不足问题

错误示例：Permission denied: user=xxx, access=WRITE
解决方案：

修改HDFS权限：
```
hdfs dfs -chmod -R 777 /user
```

或配置HDFS超级用户（在core-site.xml）：

<property>
 <name>hadoop.proxyuser.xxx.hosts</name>
 <value>*</value>
</property>
<property>
 <name>hadoop.proxyuser.xxx.groups</name>
 <value>*</value>
</property>

5.3 内存溢出调整

现象：Container killed by YARN for exceeding memory limits
优化建议：

修改mapred-site.xml：

<property>
 <name>mapreduce.map.memory.mb</name>
 <value>1024</value>
</property>
<property>
 <name>mapreduce.reduce.memory.mb</name>
 <value>2048</value>
</property>

调整YARN容器大小（yarn-site.xml）：

<property>
 <name>yarn.scheduler.maximum-allocation-mb</name>
 <value>4096</value>
</property>

六、进阶配置建议

6.1 日志管理优化

配置log4j.properties（位于$HADOOP_HOME/etc/hadoop）：

log4j.logger.org.apache.hadoop=INFO, console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{ISO8601} %-5p %c{1}:%L - %m%n

6.2 性能监控集成

推荐使用Prometheus+Grafana监控方案：

启用JMX导出（hadoop-env.sh）：

export HADOOP_JMX_OPTS="-Dcom.sun.management.jmxremote.port=8081 -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.authenticate=false"

配置Prometheus的JMX exporter采集Hadoop指标

6.3 多版本共存方案

通过环境变量隔离不同版本：

# 版本1配置
export HADOOP_HOME_V1=/usr/local/hadoop-2.7.7
export PATH=$HADOOP_HOME_V1/bin:$PATH
# 版本2配置
export HADOOP_HOME_V2=/usr/local/hadoop-3.3.6
alias hadoop3="$HADOOP_HOME_V2/bin/hadoop"

七、卸载与清理指南

当需要重置环境时执行：

# 停止所有服务
$HADOOP_HOME/sbin/stop-all.sh
# 删除数据目录
rm -rf /usr/local/hadoop/data
rm -rf /usr/local/hadoop/tmp
# 清理环境变量（从.zshrc中删除相关配置）
# 可选：删除安装目录
rm -rf /usr/local/hadoop

通过以上系统化的部署流程，开发者可以在Mac上快速构建功能完整的单机Hadoop环境。该方案经过实际验证，在macOS Ventura 13.4系统、16GB内存的MacBook Pro上稳定运行，可作为大数据技术学习的理想起点。建议定期关注Apache官方更新，及时升级到最新稳定版本以获取性能优化和安全补丁。

如何在Mac上高效部署单机Hadoop：从环境配置到集群模拟全指南