Spark

Spark是一個開源的,并行數(shù)據(jù)處理框架,能夠幫助用戶簡單的開發(fā)快速,統(tǒng)一的 大數(shù)據(jù) 應(yīng)用,對數(shù)據(jù)進行,協(xié)處理,流式處理,交互式分析等等。

Spark提供了一個快速的計算,寫入,以及交互式查詢的框架。相比于Hadoop,Spark擁有明顯的性能優(yōu)勢。Spark使用in-memory的計算方式,通過這種方式來避免一個MapReduce工作流中的多個任務(wù)對同一個 數(shù)據(jù)集 進行計算時的IO瓶頸。Spark利用Scala語言實現(xiàn),Scala能夠使得處理分布式數(shù)據(jù)集時,能夠像處理本地化數(shù)據(jù)一樣。除了交互式的數(shù)據(jù)分析,Spark還能夠支持交互式的數(shù)據(jù)挖掘,由于Spark是基于內(nèi)存的計算,很方便處理迭代計算,而數(shù)據(jù)挖掘的問題通常都是對同一份數(shù)據(jù)進行迭代計算。除此之外,Spark能夠運行于安裝Hadoop 2.0 Yarn的集群。之所以Spark能夠在保留MapReduce容錯性,數(shù)據(jù)本地化,可擴展性等特性的同時,能夠保證性能的高效,并且避免繁忙的磁盤IO,主要原因是因為Spark創(chuàng)建了一種叫做RDD(Resilient Distributed Dataset)的內(nèi)存抽象結(jié)構(gòu)。

鏈接:https://support.huaweicloud.com/productdesc-mrs/mrs_08_000801.html 

華為云推薦

MapReduce服務(wù) https://support.huaweicloud.com/mrs/index.html