备份方法
- 快照备份
- 创建快照:
hdfs dfsadmin -allowSnapshot /pathhdfs dfs -createSnapshot /path snapshotName - 查看快照:
hdfs dfsadmin -listSnapshots /path - 恢复快照:
hdfs dfs -cp /path/.snapshot/snapshotName /restore/path
- 创建快照:
- 数据复制
- 本地复制:
hadoop fs -cp hdfs://source hdfs://backup - 跨集群复制:
hadoop distcp hdfs://source hdfs://backup
- 本地复制:
- 第三方工具
- 使用Ambari/Cloudera Manager等工具实现自动化备份。
恢复方法
- 回收站恢复
- 启用回收站(需提前配置):
fs.trash.interval=120(单位:分钟) - 恢复文件:
hdfs dfs -mv /user/.Trash/Current/deleted_file /restore/path
- 启用回收站(需提前配置):
- 快照恢复
- 从快照目录复制文件到目标路径。
- 工具恢复
- 使用DistCp从备份路径复制数据到集群。
注意事项
- 定期测试备份与恢复流程,确保数据完整性。
- 启用快照前需确认集群配置支持,避免影响性能。
- 生产环境建议结合高可用(HA)配置,提升可靠性。
参考来源: