一、为什么选择HDFS Docker单机部署？

HDFS（Hadoop Distributed File System）作为Hadoop生态的核心组件，常用于海量数据存储。但在本地开发或测试环境中搭建传统HDFS集群（需多节点配合）成本高、配置复杂。Docker单机部署方案通过容器化技术，将HDFS服务封装在独立容器中，实现以下优势：

轻量级：无需安装完整Hadoop环境，单个容器即可运行NameNode和DataNode。
隔离性：避免与其他服务冲突，适合多项目并行开发。
可移植性：Docker镜像一键部署，环境一致性高。
快速验证：适合学习HDFS原理、测试API或开发离线计算任务。

二、环境准备与工具选择

1. 硬件与软件要求

硬件：建议至少4GB内存（测试环境可放宽至2GB），10GB以上磁盘空间。
操作系统：Linux（推荐Ubuntu 20.04+）或macOS（通过Docker Desktop）。
软件：
- Docker Engine（最新稳定版）
- curl/wget（用于下载镜像）
- 基础命令行工具（如vim、ssh）

2. Docker镜像选择

官方未提供HDFS专属镜像，但可通过以下方式获取：

社区镜像：推荐sequenceiq/hadoop-docker（包含完整Hadoop生态）或bde2020/hadoop-base（轻量级基础镜像）。
自定义构建：通过Dockerfile基于openjdk:8-jre安装HDFS，适合定制化需求。

示例：拉取轻量级镜像

docker pull bde2020/hadoop-base:2.0.0-hadoop2.7.4-java8

三、HDFS Docker单机部署步骤

1. 启动HDFS容器

使用docker run命令启动容器，并映射本地目录以持久化数据：

docker run -itd \
  --name hdfs-single \
  -p 9000:9000 \  # HDFS默认端口
  -p 50070:50070 \ # Web UI端口
  -v /path/to/local/data:/data \ # 数据持久化
  bde2020/hadoop-base:2.0.0-hadoop2.7.4-java8

参数说明：

-itd：后台运行并分配伪终端。
-p：端口映射，将容器内HDFS服务暴露到主机。
-v：挂载本地目录到容器内/data，避免数据丢失。

2. 配置HDFS服务

进入容器修改配置文件（如core-site.xml和hdfs-site.xml）：

docker exec -it hdfs-single bash
vi /opt/hadoop-2.7.4/etc/hadoop/core-site.xml

关键配置：

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>

3. 初始化并启动服务

在容器内执行以下命令：

# 格式化NameNode（仅首次需要）
/opt/hadoop-2.7.4/bin/hdfs namenode -format
# 启动HDFS服务
/opt/hadoop-2.7.4/sbin/start-dfs.sh

验证服务：

访问Web UI：http://localhost:50070
通过命令行检查：
```
/opt/hadoop-2.7.4/bin/hdfs dfs -ls /
```

四、进阶配置与优化

1. 调整内存限制

默认情况下，Docker容器可能因内存不足导致HDFS崩溃。通过-m参数限制内存：

docker run -itd --name hdfs-single -m 2g ...

或在容器内修改hadoop-env.sh：

export HADOOP_HEAPSIZE=1024  # 设置JVM堆大小为1GB

2. 启用HDFS权限控制

修改hdfs-site.xml启用简单权限模型：

<property>
  <name>dfs.permissions.enabled</name>
  <value>true</value>
</property>

重启服务后，需通过hdfs dfs -chmod管理文件权限。

3. 集成其他Hadoop组件

若需使用MapReduce或YARN，可扩展容器配置或使用sequenceiq/hadoop-docker镜像，该镜像已预装完整生态。

五、常见问题与解决方案

1. 端口冲突

问题：主机端口9000或50070已被占用。
解决：修改-p参数映射到其他端口，如-p 9001:9000。

2. 数据持久化失败

问题：容器删除后数据丢失。
解决：确保使用-v参数挂载本地目录，并检查目录权限：

chmod -R 777 /path/to/local/data

3. 性能瓶颈

问题：小文件过多导致NameNode内存不足。
优化：

合并小文件：使用hadoop archive命令。
增加NameNode堆内存：修改HADOOP_NAMENODE_OPTS。

六、实战案例：通过HDFS Docker部署WordCount

1. 上传输入文件

docker exec -it hdfs-single bash
echo "hello world" > /tmp/input.txt
/opt/hadoop-2.7.4/bin/hdfs dfs -put /tmp/input.txt /input

2. 运行MapReduce作业

若使用sequenceiq/hadoop-docker镜像，可直接执行：

docker exec -it hdfs-single bash
/opt/hadoop-2.7.4/bin/hadoop jar \
  /opt/hadoop-2.7.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jar \
  wordcount /input /output

3. 查看结果

/opt/hadoop-2.7.4/bin/hdfs dfs -cat /output/part-r-00000

七、总结与展望

通过Docker部署HDFS单机环境，开发者可以低成本、高效率地完成以下工作：

学习HDFS架构与API调用。
测试数据存储与处理逻辑。
开发离线计算任务原型。

未来，随着容器技术的演进，可进一步探索：

Kubernetes集成：通过StatefulSet管理多节点HDFS集群。
混合云部署：结合公有云存储（如AWS S3）实现冷热数据分层。
安全加固：集成Kerberos认证与TLS加密。

行动建议：立即尝试本文步骤，并在GitHub上分享你的Dockerfile与配置模板，为社区贡献力量！

HDFS Docker单机部署全攻略：从环境搭建到实战应用