什么是MapReduce服務(wù)
MapReduce架構(gòu)圖
MapReduce架構(gòu)包括了基礎(chǔ)設(shè)施和大數(shù)據(jù)處理流程各個(gè)階段的能力。
1、基礎(chǔ)設(shè)施
MapReduce基于華為云彈性云服務(wù)器ECS構(gòu)建的大數(shù)據(jù)集群,充分利用了其虛擬化層的高可靠、高安全的能力。
虛擬私有云(VPC)為每個(gè)租戶提供的虛擬內(nèi)部網(wǎng)絡(luò),默認(rèn)與其他網(wǎng)絡(luò)隔離。
云硬盤(pán)(EVS)提供高可靠、高性能的存儲(chǔ)。
彈性云服務(wù)器(ECS)提供的彈性可擴(kuò)展虛擬機(jī),結(jié)合VPC、安全組、EVS數(shù)據(jù)多副本等能力打造一個(gè)高效、可靠、安全的計(jì)算環(huán)境。
2、數(shù)據(jù)采集
數(shù)據(jù)采集層提供了數(shù)據(jù)接入到MRS集群的能力,包括Flume(數(shù)據(jù)采集)、Loader(關(guān)系型數(shù)據(jù)導(dǎo)入)、Kafka(高可靠消息隊(duì)列),支持各種數(shù)據(jù)源導(dǎo)入數(shù)據(jù)到大數(shù)據(jù)集群中。使用云數(shù)據(jù)遷移云服務(wù)也可以將外部數(shù)據(jù)導(dǎo)入至MRS集群中。
3、數(shù)據(jù)存儲(chǔ)
MapReduce支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)在集群中的存儲(chǔ),并且支持多種高效的格式來(lái)滿足不同計(jì)算引擎的要求。
HDFS是大數(shù)據(jù)上通用的分布式文件系統(tǒng)。
OBS是對(duì)象存儲(chǔ)服務(wù),具有高可用低成本的特點(diǎn)。
HBase支持帶索引的數(shù)據(jù)存儲(chǔ),適合高性能基于索引查詢的場(chǎng)景。
4、數(shù)據(jù)融合處理
MapReduce提供多種主流計(jì)算引擎:MapReduce(批處理)、Tez(DAG模型)、Spark(內(nèi)存計(jì)算)、SparkStreaming(微批流計(jì)算)、Storm(流計(jì)算)、Flink(流計(jì)算),滿足多種大數(shù)據(jù)應(yīng)用場(chǎng)景,將數(shù)據(jù)進(jìn)行結(jié)構(gòu)和邏輯的轉(zhuǎn)換,轉(zhuǎn)化成滿足業(yè)務(wù)目標(biāo)的數(shù)據(jù)模型。
基于預(yù)設(shè)的數(shù)據(jù)模型,使用易用SQL的數(shù)據(jù)分析,用戶可以選擇Hive(數(shù)據(jù)倉(cāng)庫(kù)),SparkSQL以及Presto交互式查詢引擎。
5、數(shù)據(jù)呈現(xiàn)調(diào)度
用于數(shù)據(jù)分析結(jié)果的呈現(xiàn),并與數(shù)據(jù)治理中心DataArts Studio集成,提供一站式的大數(shù)據(jù)協(xié)同開(kāi)發(fā)平臺(tái),幫助用戶輕松完成數(shù)據(jù)建模、數(shù)據(jù)集成、腳本開(kāi)發(fā)、作業(yè)調(diào)度、運(yùn)維監(jiān)控等多項(xiàng)任務(wù),可以極大降低用戶使用大數(shù)據(jù)的門(mén)檻,幫助用戶快速構(gòu)建大數(shù)據(jù)處理中心。
6、集群管理
以Hadoop為基礎(chǔ)的大數(shù)據(jù)生態(tài)的各種組件均是以分布式的方式進(jìn)行部署,其部署、管理和運(yùn)維復(fù)雜度較高。
MapReduce集群管理提供了統(tǒng)一的運(yùn)維管理平臺(tái),包括一鍵式部署集群能力,并提供多版本選擇,支持運(yùn)行過(guò)程中集群在無(wú)業(yè)務(wù)中斷條件下,進(jìn)行擴(kuò)縮容、彈性伸縮。同時(shí)MRS集群管理還提供了作業(yè)管理、資源標(biāo)簽管理,以及對(duì)上述數(shù)據(jù)處理各層組件的運(yùn)維,并提供監(jiān)控、告警、配置、補(bǔ)丁升級(jí)等一站式運(yùn)維能力。