在Ubuntu上调度HDFS任务需结合Hadoop的YARN资源管理框架,核心步骤如下:
- 配置YARN:修改
yarn-site.xml,设置yarn.nodemanager.aux-services为mapreduce_shuffle,并指定shuffle类为org.apache.hadoop.mapred.ShuffleHandler。 - 启动YARN服务:执行
start-yarn.sh启动ResourceManager和NodeManager,通过jps命令查看进程是否正常。 - 提交任务:使用
hadoop jar命令提交MapReduce任务,例如:hadoop jar hadoop-mapreduce-examples.jar grep input output 'dfs[a-z.]+'任务会由YARN的ResourceManager调度到各NodeManager节点执行。
- 监控任务:通过YARN的Web界面(http://localhost:8088/cluster)查看任务运行状态、资源使用情况等。
注:需先完成HDFS的基本配置(如core-site.xml、hdfs-site.xml)并启动HDFS。