在Ubuntu上实现Hadoop数据存储,需先安装配置Hadoop环境,再通过HDFS命令操作数据。以下是关键步骤:
- 安装Java环境:Hadoop基于Java,需先安装JDK(如OpenJDK 8/11),配置环境变量
JAVA_HOME。 - 安装Hadoop:下载稳定版本(如Hadoop 3.3.x),解压至指定目录(如
/usr/local/hadoop),配置环境变量HADOOP_HOME。 - 配置HDFS:
- 修改
core-site.xml,设置HDFS默认路径(如hdfs://localhost:9000)。 - 修改
hdfs-site.xml,指定NameNode和DataNode数据存储目录(如/usr/local/hadoop/data/name和/usr/local/hadoop/data/data)。
- 修改
- 格式化HDFS:在主节点执行
hdfs namenode -format,初始化文件系统。 - 启动服务:运行
start-dfs.sh和start-yarn.sh启动HDFS和YARN。 - 上传数据:通过
hdfs dfs -put命令将本地文件上传至HDFS指定路径(如/user/hadoop/input)。
示例命令:
# 上传本地文件到HDFS
hdfs dfs -mkdir -p /user/hadoop/input
hdfs dfs -put ~/local_file.txt /user/hadoop/input
# 查看HDFS文件
hdfs dfs -ls /user/hadoop/input
说明:
- 单机模式无需配置集群,直接运行即可;完全分布式需在多台机器上重复配置从节点。
- 确保SSH免密登录配置正确,避免权限问题。
- 数据存储路径可根据需求修改,建议使用独立磁盘挂载目录提升性能。