Debian Hadoop集群扩容步骤如下:
- 准备新节点
- 克隆现有节点(虚拟机/物理机),修改IP地址和主机名。
- 安装JDK、Hadoop等运行环境,配置环境变量。
- 配置新节点
- 修改
/etc/hosts文件,确保节点间IP和主机名映射正确。 - 配置SSH免密登录,实现节点间无密码通信。
- 在
slaves(或include)文件中添加新节点主机名。
- 修改
- 加入集群
- 在NameNode上修改
hdfs-site.xml,添加新节点数据目录(如dfs.datanode.data.dir)。 - 在ResourceManager上修改
yarn-site.xml,添加新节点资源管理配置(如yarn.resourcemanager.nodes.include-path)。 - 启动新节点的DataNode和NodeManager服务:
hadoop-daemon.sh start datanode yarn-daemon.sh start nodemanager
- 在NameNode上修改
- 验证扩容
- 使用
hdfs dfsadmin -report查看节点状态,确认新节点已加入。 - 若需数据均衡,执行
hdfs balancer命令调整数据分布。
- 使用
注意事项:
- 扩容前备份配置文件和数据,建议在低峰时段操作。
- 确保所有节点操作系统、Hadoop版本一致,网络配置正确。
- 可提前配置多NameNode/ResourceManager以实现高可用。
参考来源: