HetuEngine簡(jiǎn)介
HetuEngine是自研高性能交互式SQL分析及數(shù)據(jù)虛擬化引擎。與大數(shù)據(jù)生態(tài)無縫融合,實(shí)現(xiàn)海量數(shù)據(jù)秒級(jí)交互式查詢;支持跨源跨域統(tǒng)一訪問,使能數(shù)據(jù)湖內(nèi)、湖間、湖倉(cāng)一站式SQL融合分析。其能夠支持跨源(多種數(shù)據(jù)源,如Hive,HBase,GaussDB(DWS),ClickHouse等),跨域(多個(gè)地域或數(shù)據(jù)中心)的快速聯(lián)合查詢,尤其適用于Hadoop集群(MRS)的Hive、Hudi數(shù)據(jù)的交互式快速查詢場(chǎng)景。
HetuEngine結(jié)構(gòu)
常見概念介紹
- 云服務(wù)層
HetuEngine CLI/JDBC
HetuEngine的客戶端,使用者通過客戶端向服務(wù)端提交查詢請(qǐng)求,然后將執(zhí)行結(jié)果取回并展示。
HSBroker
HetuEngine的服務(wù)管理,用作計(jì)算實(shí)例的資源管理校驗(yàn),健康管理與自動(dòng)維護(hù)等。
HSConsole
對(duì)外提供數(shù)據(jù)源信息管理,計(jì)算實(shí)例管理,自動(dòng)化任務(wù)的查看等功能的可視化操作界面和RESTful接口。
HSFabric
提供SQL統(tǒng)一訪問入口及跨域(DC)高性能安全數(shù)據(jù)傳輸。
- 引擎層
Coordinator
HetuEngine計(jì)算實(shí)例的管理節(jié)點(diǎn),提供SQL接收、SQL解析、生成執(zhí)行計(jì)劃、執(zhí)行計(jì)劃優(yōu)化、分派任務(wù)和資源調(diào)度等能力。
Worker
HetuEngine計(jì)算實(shí)例的工作節(jié)點(diǎn),提供數(shù)據(jù)源數(shù)據(jù)并行拉取,分布式SQL計(jì)算等能力。

HetuEngine跨源功能
- 功能簡(jiǎn)介
出于管理和信息收集的需要,企業(yè)內(nèi)部會(huì)存儲(chǔ)海量數(shù)據(jù),包括數(shù)目眾多的各種數(shù)據(jù)庫、數(shù)據(jù)倉(cāng)庫等,此時(shí)會(huì)面臨數(shù)據(jù)源種類繁多、數(shù)據(jù)集結(jié)構(gòu)化混合、相關(guān)數(shù)據(jù)存放分散等困境,導(dǎo)致跨源查詢開發(fā)成本高,跨源復(fù)雜查詢耗時(shí)長(zhǎng)。
HetuEngine提供了統(tǒng)一標(biāo)準(zhǔn)SQL實(shí)現(xiàn)跨源協(xié)同分析,簡(jiǎn)化跨源分析操作。
- 關(guān)鍵技術(shù)和優(yōu)勢(shì)
計(jì)算下推
在通過HetuEngine進(jìn)行跨源協(xié)同分析時(shí),為了提升訪問效率,HetuEngine從下表所示維度增強(qiáng)了計(jì)算下推的能力。
多源異構(gòu)
協(xié)同分析既支持Hive、GaussDB等結(jié)構(gòu)化數(shù)據(jù)源,也支持HBase等非結(jié)構(gòu)化數(shù)據(jù)源。
全局元數(shù)據(jù)
對(duì)于非結(jié)構(gòu)化數(shù)據(jù)源HBase,提供映射表方式將非結(jié)構(gòu)化SCHEMA映射成結(jié)構(gòu)化SCHEMA,實(shí)現(xiàn)HetuEngine對(duì)HBase的無差別SQL訪問;對(duì)于數(shù)據(jù)源信息,提供全局管理。
全局權(quán)限控制
數(shù)據(jù)源的權(quán)限均可通過HetuEngine開放給Ranger集中管理,統(tǒng)一控制。

HetuEngine跨域功能
- 功能簡(jiǎn)介
HetuEngine提供統(tǒng)一標(biāo)準(zhǔn)SQL對(duì)分布于多個(gè)地域(或數(shù)據(jù)中心)的多種數(shù)據(jù)源實(shí)現(xiàn)高效訪問,屏蔽數(shù)據(jù)在結(jié)構(gòu)、存儲(chǔ)及地域上的差異,實(shí)現(xiàn)數(shù)據(jù)與應(yīng)用的解耦。
- 關(guān)鍵技術(shù)和優(yōu)勢(shì)
無單點(diǎn)瓶頸
HSFabric可進(jìn)行水平擴(kuò)展,多通道并行傳輸,速率最大化,跨地域延遲不再成為瓶頸。
計(jì)算資源利用
將數(shù)據(jù)壓縮,序列化的任務(wù)下推到Worker并行計(jì)算。
高效序列化
優(yōu)化數(shù)據(jù)序列化格式,同等數(shù)據(jù)量級(jí)下,更低的數(shù)據(jù)傳輸量。
流式傳輸
基于HTTP 2.0 stream, 保證HTTP協(xié)議通用性的同時(shí),減少大量數(shù)據(jù)傳輸中RPC重復(fù)調(diào)用。
斷點(diǎn)續(xù)傳
防止數(shù)據(jù)傳輸過程中連接異常斷開后重傳大量數(shù)據(jù)。
流量管控
支持按地區(qū)限制數(shù)據(jù)傳輸所占用的網(wǎng)絡(luò)帶寬,避免在跨地域有限帶寬場(chǎng)景下因流量獨(dú)占而影響其他業(yè)務(wù)的正常使用。
