華為云計算 云知識 hadoop是什么
hadoop是什么

Hadoop起源于Apache Nutch項目,始于2002年,是Apache Lucene的子項目之一。2004年,Google在“操作系統(tǒng)設(shè)計與實現(xiàn)”(Operating System Design and Implementation,OSDI)會議上公開發(fā)表了題為MapReduce:Simplified Data Processing on Large Clusters(Mapreduce:簡化大規(guī)模集群上的數(shù)據(jù)處理)的論文之后,受到啟發(fā)的Doug Cutting等人開始嘗試實現(xiàn)MapReduce計算框架,并將它與NDFS(Nutch Distributed File System)結(jié)合,用以支持Nutch引擎的主要算法。由于NDFS和MapReduce在Nutch引擎中有著良好的應用,所以它們于2006年2月被分離出來,成為一套完整而獨立的軟件,并被命名為Hadoop。到了2008年年初,hadoop已成為Apache的頂級項目,包含眾多子項目,被應用到包括Yahoo在內(nèi)的很多互聯(lián)網(wǎng)公司。

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。Hadoop實現(xiàn)了一個分布式文件系統(tǒng)(Hadoop Distributed File System),其中一個組件是HDFS。HDFS有高容錯性的特點,并且設(shè)計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數(shù)據(jù),適合那些有著超 大數(shù)據(jù) 集(large data set)的應用程序。HDFS放寬了(relax)POSIX的要求,可以以流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。Hadoop的框架最核心的設(shè)計就是:HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲,而MapReduce則為海量的數(shù)據(jù)提供了計算。