檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問(wèn)國(guó)際站服務(wù)網(wǎng)站 http://www.cqfng.cn/intl/zh-cn
不再顯示此消息
模分析能力和實(shí)時(shí)處理能力,用于數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市、實(shí)時(shí)分析、實(shí)時(shí)決策和混合負(fù)載等場(chǎng)景,廣泛應(yīng)用于金融、政府、電信等行業(yè)核心系統(tǒng)。 GaussDB OLAP數(shù)據(jù)庫(kù)的發(fā)展歷程是怎樣的?GaussDB OLAP數(shù)據(jù)庫(kù)于2011年開(kāi)始預(yù)研,之后基于PostgreSQL 9.2.4進(jìn)行全面
數(shù)據(jù)庫(kù) 與 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)庫(kù) 1)用于OLTP 2)數(shù)據(jù)庫(kù)是面向事物處理的,數(shù)據(jù)是由日常的業(yè)務(wù)產(chǎn)生的,會(huì)有頻繁的增刪改操作 3)數(shù)據(jù)庫(kù)一般用來(lái)存儲(chǔ)當(dāng)前事務(wù)性數(shù)據(jù),如交易數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù) 4)數(shù)據(jù)庫(kù)的設(shè)計(jì)一般是符合三范式的,有最大的精確度和最小的冗余度,有利于數(shù)據(jù)的操作 5)數(shù)
第二類工具,關(guān)注如何對(duì)湖中的數(shù)據(jù)進(jìn)行分析、挖掘、利用。數(shù)據(jù)湖需要具備完善的數(shù)據(jù)管理能力、多樣化的數(shù)據(jù)分析能力、全面的數(shù)據(jù)生命周期管理能力、安全的數(shù)據(jù)獲取和數(shù)據(jù)發(fā)布能力。如果沒(méi)有這些數(shù)據(jù)治理工具,元數(shù)據(jù)缺失,湖里的數(shù)據(jù)質(zhì)量就沒(méi)法保障,最終會(huì)由數(shù)據(jù)湖變質(zhì)為數(shù)據(jù)沼澤。 隨著大數(shù)據(jù)和AI的發(fā)展,數(shù)據(jù)湖中數(shù)據(jù)
Hive 是基于Hadoop構(gòu)建的一套數(shù)據(jù)倉(cāng)庫(kù)分析系統(tǒng),用來(lái)進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加載,這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。Hive數(shù)據(jù)倉(cāng)庫(kù)工具能將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供SQL查詢功能,能將SQL語(yǔ)句轉(zhuǎn)變成MapRe
產(chǎn)生告警的主機(jī)名。 對(duì)系統(tǒng)的影響 Hive默認(rèn)數(shù)據(jù)倉(cāng)庫(kù)被刪除,會(huì)導(dǎo)致在默認(rèn)數(shù)據(jù)倉(cāng)庫(kù)中創(chuàng)建庫(kù)、創(chuàng)建表失敗,影響業(yè)務(wù)正常使用。 可能原因 Hive定時(shí)查看默認(rèn)數(shù)據(jù)倉(cāng)庫(kù)的狀態(tài),發(fā)現(xiàn)Hive默認(rèn)數(shù)據(jù)倉(cāng)庫(kù)被刪除。 處理步驟 檢查Hive默認(rèn)數(shù)據(jù)倉(cāng)庫(kù)。 以root用戶登錄客戶端所在節(jié)點(diǎn),用戶密
業(yè)務(wù)數(shù)據(jù)被分散存儲(chǔ)在多個(gè)節(jié)點(diǎn)上,數(shù)據(jù)分析任務(wù)被推送到數(shù)據(jù)所在位置就近執(zhí)行,并行地完成大規(guī)模的數(shù)據(jù)處理工作,實(shí)現(xiàn)對(duì)數(shù)據(jù)處理的快速響應(yīng)。 圖4 產(chǎn)品架構(gòu) 應(yīng)用層 數(shù)據(jù)加載工具、ETL(Extract-Transform-Load)工具、以及商業(yè)智能BI工具、數(shù)據(jù)挖掘和分析工具,均可
題: 數(shù)據(jù)分析對(duì)數(shù)據(jù)進(jìn)行讀取操作,會(huì)讓讀取壓力倍增 OLTP僅存儲(chǔ)數(shù)周或數(shù)月的數(shù)據(jù) 數(shù)據(jù)分布在不同系統(tǒng)不同表中,字段類型數(shù)據(jù)不同意 數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建 主要特征 數(shù)據(jù)倉(cāng)庫(kù)是分析數(shù)據(jù)的平臺(tái),而不是創(chuàng)造數(shù)據(jù)的平臺(tái) 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)反映的是相當(dāng)長(zhǎng)的時(shí)間歷史數(shù)據(jù)的內(nèi)容 數(shù)據(jù)倉(cāng)庫(kù)中一般有
Informatic D正確3. (單選)關(guān)于數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的差別,下面的敘述中不正確的是:A. 數(shù)據(jù)庫(kù)是面向事務(wù)的設(shè)計(jì),數(shù)據(jù)倉(cāng)庫(kù)是面向主題的設(shè)計(jì)B. 數(shù)據(jù)庫(kù)一般存儲(chǔ)歷史數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)一般存儲(chǔ)在線數(shù)據(jù) 正確C. 數(shù)據(jù)庫(kù)設(shè)計(jì)是盡量避免冗余,數(shù)據(jù)倉(cāng)庫(kù)是有意引入冗余B 提交提交答案正確 (6/6
了。自底向上,與OSI類似,通用框架下的大數(shù)據(jù)體系有七層:數(shù)據(jù)源、數(shù)據(jù)收集層、數(shù)據(jù)存儲(chǔ)層、資源管理與服務(wù)協(xié)調(diào)層、計(jì)算引擎層、數(shù)據(jù)分析層及數(shù)據(jù)可視化層。 第二個(gè)用途是面向主題:我們把四面八方的數(shù)據(jù)都拿到了,那怎樣組織這些數(shù)據(jù)呢?換句話說(shuō),產(chǎn)品丟了一個(gè)又一個(gè)的需求過(guò)來(lái),
近執(zhí)行數(shù)據(jù)分析任務(wù),實(shí)現(xiàn)對(duì)數(shù)據(jù)處理的快速響應(yīng)。 湖倉(cāng)一體 面對(duì)日益多樣化的數(shù)據(jù)分析場(chǎng)景,華為云提供湖倉(cāng)一體技術(shù)方案,數(shù)據(jù)在GaussDB(DWS)與MRS云原生數(shù)據(jù)湖之間高效互通,支持多數(shù)據(jù)類型存儲(chǔ)、數(shù)據(jù)取用規(guī)則更靈活,從架構(gòu)上真正實(shí)現(xiàn)了湖倉(cāng)一體,幫助企業(yè)更好撬動(dòng)數(shù)據(jù)潛能,最大化數(shù)據(jù)價(jià)值。
成服務(wù)和數(shù)據(jù)集市。我們所涉及的數(shù)據(jù)倉(cāng)庫(kù)其實(shí)更多的聚焦于分析層,但是整個(gè)BI項(xiàng)目的核心之一。分析層包括了對(duì)商業(yè)邏輯的數(shù)據(jù)建模,不僅要根據(jù)用戶對(duì)可視化數(shù)據(jù)的展現(xiàn)要求,也要根據(jù)數(shù)據(jù)集市中數(shù)據(jù)分布、容量、業(yè)務(wù)種類多樣性來(lái)綜合設(shè)計(jì)。作為分析層中,提供分析數(shù)據(jù)物理存儲(chǔ)基礎(chǔ)就是數(shù)據(jù)倉(cāng)庫(kù),倉(cāng)庫(kù)中
來(lái)了。元數(shù)據(jù)(Metadata)類似于這樣的電話黃頁(yè)。1.元數(shù)據(jù)的定義 數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)是關(guān)于數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的數(shù)據(jù)。它的作用類似于數(shù)據(jù)庫(kù)管理系統(tǒng)的數(shù)據(jù)字典,保存了邏輯數(shù)據(jù)結(jié)構(gòu)、文件、地址和索引等信息。廣義上講,在數(shù)據(jù)倉(cāng)庫(kù)中,元數(shù)據(jù)描述了數(shù)據(jù)倉(cāng)庫(kù)內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)。 元數(shù)
SageMaker機(jī)器學(xué)習(xí)服務(wù),導(dǎo)入數(shù)據(jù)湖中的數(shù)據(jù)進(jìn)行模型訓(xùn)練,這些都是常規(guī)操作??偨Y(jié)一下,數(shù)據(jù)湖不只是個(gè)囤積數(shù)據(jù)的“大水坑”,除了用存儲(chǔ)技術(shù)構(gòu)建的湖底座以外,還包含一系列的數(shù)據(jù)入湖、數(shù)據(jù)出湖、數(shù)據(jù)管理、數(shù)據(jù)應(yīng)用工具集,共同組成了數(shù)據(jù)湖解決方案。數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)區(qū)別在哪兒? 從數(shù)據(jù)含金
1.數(shù)據(jù)治理是什么?數(shù)據(jù)治理:為公司業(yè)務(wù)越來(lái)越復(fù)雜而帶來(lái)的數(shù)據(jù)越來(lái)越臟、亂、差的問(wèn)題,而提出一套治理數(shù)據(jù)的方法+工具集2. 數(shù)據(jù)治理的內(nèi)容這一部分,我將從六個(gè)方面來(lái)講解數(shù)據(jù)治理的內(nèi)容。2.1 數(shù)據(jù)標(biāo)準(zhǔn)定義數(shù)據(jù)維度及指標(biāo)需要清晰的、統(tǒng)一的、標(biāo)準(zhǔn)的定義。(這里的部分參考Hadoop數(shù)
構(gòu)成威脅。 數(shù)據(jù)是集成的:根據(jù)決策分析的要求,將分散于各處的原始數(shù)據(jù)進(jìn)行抽取、篩選、清理、綜合等集成工作,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)具有集成性。 一般情況下數(shù)據(jù)倉(cāng)庫(kù)所需要的數(shù)據(jù)不需要直接從業(yè)務(wù)發(fā)生地獲取數(shù)據(jù),而是針對(duì)原數(shù)據(jù)庫(kù)挑選中數(shù)據(jù)倉(cāng)庫(kù)所需要的數(shù)據(jù),然后將來(lái)自不同數(shù)據(jù)庫(kù)中的數(shù)據(jù)按照某一標(biāo)準(zhǔn)進(jìn)行統(tǒng)一處理。
L界面工具DAS、Data Studio。 04 導(dǎo)入數(shù)據(jù) 支持多種數(shù)據(jù)源和導(dǎo)入工具完成數(shù)據(jù)入庫(kù):支持OBS外表、GDS外表導(dǎo)入;支持CDM、DRS、DLI實(shí)時(shí)入庫(kù);支持訪問(wèn)遠(yuǎn)端MRS數(shù)據(jù)源;支持元數(shù)據(jù)導(dǎo)入和導(dǎo)出;支持DSC進(jìn)行SQL腳本遷移等等。 05 數(shù)據(jù)分析 導(dǎo)入數(shù)據(jù)后,通過(guò)SQL命令完成各種業(yè)務(wù)場(chǎng)景數(shù)據(jù)分析。
數(shù)據(jù)倉(cāng)庫(kù)服務(wù) GaussDB(DWS)數(shù)據(jù)導(dǎo)入導(dǎo)出 GaussDB(DWS)支持多種類型數(shù)據(jù)源,面向不同場(chǎng)景,提供全系列數(shù)據(jù)導(dǎo)入導(dǎo)出方案,搭建高效數(shù)據(jù)通道。 導(dǎo)入導(dǎo)出工具系列 如表3-1所示,GaussDB(DWS)提供了一系列數(shù)據(jù)導(dǎo)入導(dǎo)出工具,可根據(jù)場(chǎng)景不同選擇合適的工具。 表3-1
MetaStore組件: 該組件是Hive用來(lái)負(fù)責(zé)管理元數(shù)據(jù)的組件。Hive的元數(shù)據(jù)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中,其支持的關(guān)系型數(shù)據(jù)庫(kù)有Derby和Mysql,其中Derby是Hive默認(rèn)情況下使用的數(shù)據(jù)庫(kù),它內(nèi)嵌在Hive中,但是該數(shù)據(jù)庫(kù)只支持單會(huì)話,在生產(chǎn)中并不適用,在我們?nèi)粘5拈_(kāi)發(fā)中,
表,V2R5支持2048 字段每個(gè)表非結(jié)構(gòu)化數(shù)據(jù)支持非結(jié)構(gòu)化數(shù)據(jù)可以直接存儲(chǔ)到數(shù)據(jù)庫(kù),其非結(jié)構(gòu)化數(shù)據(jù)支持的字段大小從512TB~2PB支持,但是一般在數(shù)據(jù)庫(kù)中存儲(chǔ)文件目錄,數(shù)據(jù)存儲(chǔ)在操作系統(tǒng)層面支持,但是一般在數(shù)據(jù)庫(kù)中存儲(chǔ)文件目錄,數(shù)據(jù)存儲(chǔ)在操作系統(tǒng)層面支持
## 壓縮 結(jié)構(gòu)化數(shù)據(jù)的編碼方式一般都不會(huì)非常緊湊,常常還有一定的可壓縮余地。數(shù)據(jù)倉(cāng)庫(kù)通常會(huì)在列存的基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行壓縮,在物理上減少數(shù)據(jù)存儲(chǔ)量,從而減少讀取時(shí)間,提高性能。數(shù)據(jù)表相同字段的數(shù)據(jù)類型一般都是一樣的,甚至有些情況取值都很接近,這樣的一批數(shù)據(jù)通常會(huì)有較好的壓縮率。