hadoop的发展及原理？windows 10 hadoop

Hadoop的发展历史

（图片来源网络，侵删）

2004年— 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。

2005年12月— Nutch移植到新的框架，Hadoop在20个节点上稳定运行。

2006年1月— Doug Cutting加入雅虎。

（图片来源网络，侵删）

2006年2月— Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。

2006年2月— 雅虎的网格计算团队采用Hadoop。

2006年4月— 标准排序(10 GB每个节点)在188个节点上运行47.9个小时。

（图片来源网络，侵删）

…………

Hadoop的工作原理是：

Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS(对于本文)的上一层是MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 组成。………

HDFS 是 Hadoop 生态圈中提供分布式存储支持的系统，上层的很多计算框架(Hbase、Spark 等)都依赖于 HDFS 存储。

2. MapReduce(分布式计算模型)离线计算

何为离线计算，其实就是非实时计算。

3. Yarn(分布式资源管理器)

Yarn 的出现主要就是为了解决原始 Hadoop 扩展性较差、不支持多种计算模型的问题。

4. Spark(内存计算)

Spark 提供了内存中的分布式计算能力，相比传统的 MapReduce 大数据分析效率更高、运行速度更快。

5. HBase(分布式列存储数据库)

Hbase继承了列存储的特性，它非常适合需对数据进行随机读、写操作。其次，Hbase构建在HDFS之上，其内部管理的文件全部存储在HDFS中。这使它具有高度容错性和可扩展性，并支持Hadoop mapreduce程序设计模型。

6. Hive(数据仓库)

　　· 2008年1月，Hadoop成为Apache顶级项目。

　　· 2008年6月，Hadoop的第一个SQL框架——Hive成为了Hadoop的子项目。

　　· 2009年7月，MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。

　　· 2009年7月，Avro 和 Chukwa 成为Hadoop新的子项目。

　　· 2010年5月，Avro脱离Hadoop项目，成为Apache顶级项目。

　　· 2010年5月，HBase脱离Hadoop项目，成为Apache顶级项目。

　　· 2010年9月，Hive脱离Hadoop，成为Apache顶级项目。

　　· 2010年9月，Pig脱离Hadoop，成为Apache顶级项目。

　　· 2010年-2011年，扩大的Hadoop社区忙于建立大量的新组件(Crunch，Sqoop，Flume，Oozie等)来扩展Hadoop的使用场景和可用性。

　　· 2011年1月，ZooKeeper 脱离Hadoop，成为Apache顶级项目。

到此，以上就是小编对于的问题就介绍到这了，希望这3点解答对大家有用。