華為云提供了 大數(shù)據(jù) MapReduce服務 (MRS),MRS是一個在華為云上部署和管理Hadoop系統(tǒng)的服務,一鍵即可部署Hadoop集群。
產(chǎn)品架構
華為云MRS的邏輯架構如圖1所示。
圖1 MRS架構

MRS架構包括了基礎設施和大數(shù)據(jù)處理流程各個階段的能力。
基礎設施
MRS基于華為云彈性 云服務器ECS 構建的大 數(shù)據(jù)集 群,充分利用了其虛擬化層的高可靠、高安全的能力。
虛擬私有云 (VPC)為每個租戶提供的虛擬內(nèi)部網(wǎng)絡,默認與其他網(wǎng)絡隔離。
云硬盤 (EVS)提供高可靠、高性能的存儲。
彈性 云服務器 (ECS)提供的彈性可擴展虛擬機,結合VPC、安全組、EVS數(shù)據(jù)多副本等能力打造一個高效、可靠、安全的計算環(huán)境。
數(shù)據(jù)集成
數(shù)據(jù)集成層提供了數(shù)據(jù)接入到MRS集群的能力,包括Flume(數(shù)據(jù)采集)、Loader(關系型數(shù)據(jù)導入)、Kafka(高可靠消息隊列),支持各種數(shù)據(jù)源導入數(shù)據(jù)到大數(shù)據(jù)集群中。
數(shù)據(jù)存儲
MRS支持結構化和非結構化數(shù)據(jù)在集群中的存儲,并且支持多種高效的格式來滿足不同計算引擎的要求。
HDFS是大數(shù)據(jù)上通用的分布式文件系統(tǒng)。
OBS是 對象存儲服務 ,具有高可用低成本的特點。
HBase支持帶索引的數(shù)據(jù)存儲,適合高性能基于索引查詢的場景。
數(shù)據(jù)計算
MRS提供多種主流計算引擎:MapReduce(批處理)、Tez(DAG模型)、Spark(內(nèi)存計算)、SparkStreaming(微批流計算)、Storm(流計算)、Flink(流計算),滿足多種大數(shù)據(jù)應用場景,將數(shù)據(jù)進行結構和邏輯的轉換,轉化成滿足業(yè)務目標的數(shù)據(jù)模型。
數(shù)據(jù)分析
基于預設的數(shù)據(jù)模型,使用易用SQL的數(shù)據(jù)分析,用戶可以選擇Hive( 數(shù)據(jù)倉庫 ),SparkSQL以及Presto交互式查詢引擎。
數(shù)據(jù)呈現(xiàn)調(diào)度
用于數(shù)據(jù)分析結果的呈現(xiàn),并與 數(shù)據(jù)湖 工廠(DLF)集成,提供一站式的大數(shù)據(jù)協(xié)同開發(fā)平臺,幫助用戶輕松完成數(shù)據(jù)建模、數(shù)據(jù)集成、腳本開發(fā)、作業(yè)調(diào)度、運維監(jiān)控等多項任務,可以極大降低用戶使用大數(shù)據(jù)的門檻,幫助用戶快速構建大數(shù)據(jù)處理中心。
集群管理
以Hadoop為基礎的大數(shù)據(jù)生態(tài)的各種組件均是以分布式的方式進行部署,其部署、管理和運維復雜度較高。
MRS集群管理提供了統(tǒng)一的運維管理平臺,包括一鍵式部署集群能力,并提供多版本選擇,支持運行過程中集群在無業(yè)務中斷條件下,進行擴縮容、 彈性伸縮 。同時MRS集群管理還提供了作業(yè)管理、資源標簽管理,以及對上述數(shù)據(jù)處理各層組件的運維,并提供監(jiān)控、告警、配置、補丁升級等一站式運維能力。