檢測(cè)到您已登錄華為云國(guó)際站賬號(hào),為了您更好的體驗(yàn),建議您訪問國(guó)際站服務(wù)網(wǎng)站 http://www.cqfng.cn/intl/zh-cn
不再顯示此消息
壓力,使數(shù)據(jù)的處理本地化,提高集群的性能和可支持的并發(fā)度。通過對(duì)關(guān)聯(lián)條件和分組條件的仔細(xì)設(shè)計(jì),能夠盡可能的減少不必要的數(shù)據(jù)shuffle。 選擇存儲(chǔ)方案 【建議】表的存儲(chǔ)類型是表定義設(shè)計(jì)的第一步,客戶業(yè)務(wù)類型是決定表的存儲(chǔ)類型的主要因素,表存儲(chǔ)類型的選擇依據(jù)請(qǐng)參考表1。
規(guī)則:數(shù)據(jù)庫(kù)設(shè)計(jì)與開發(fā)時(shí)必須遵守的約定。 建議:數(shù)據(jù)庫(kù)設(shè)計(jì)與開發(fā)時(shí)建議考慮的約定。 說明:對(duì)規(guī)則/建議進(jìn)行的詳細(xì)說明和解釋。 總體開發(fā)設(shè)計(jì)規(guī)范 下表是DWS開發(fā)過程中需遵循的開發(fā)設(shè)計(jì)規(guī)范全集列表,可以單擊鏈接跳轉(zhuǎn)到對(duì)應(yīng)的規(guī)則下了解詳細(xì)說明。 表1 DWS開發(fā)設(shè)計(jì)規(guī)范全集列表 編號(hào) 類別 規(guī)則/建議
數(shù)據(jù)倉(cāng)庫(kù)是信息(對(duì)其進(jìn)行分析可做出更明智的決策)的中央存儲(chǔ)庫(kù)。通常,數(shù)據(jù)定期從事務(wù)系統(tǒng)、關(guān)系數(shù)據(jù)庫(kù)和其他來源流入數(shù)據(jù)倉(cāng)庫(kù)。業(yè)務(wù)分析師、數(shù)據(jù)工程師、數(shù)據(jù)科學(xué)家和決策者通過商業(yè)智能 (BI) 工具、SQL 客戶端和其他分析應(yīng)用程序訪問數(shù)據(jù)。 數(shù)據(jù)和分析已然成為
在數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)建設(shè)過程中,數(shù)據(jù)的加載、卸載,各層數(shù)據(jù)模型之間的數(shù)據(jù)流轉(zhuǎn),業(yè)務(wù)規(guī)則的實(shí)現(xiàn)等等數(shù)據(jù)加工過程都會(huì)以ETL任務(wù)的方式實(shí)現(xiàn)。 構(gòu)建ETL子系統(tǒng)是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)實(shí)施的一個(gè)非常重要的環(huán)節(jié),在倉(cāng)庫(kù)平臺(tái)建設(shè)過程中搭建一個(gè)完整、標(biāo)準(zhǔn)的ETL子系統(tǒng)是數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)建設(shè)的基礎(chǔ)性目標(biāo)之一。ET
之上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)架構(gòu)。這是一種部分真實(shí)的表述(因?yàn)槟蓪⒃?span id="ee0iuma" class='cur'>數(shù)據(jù)轉(zhuǎn)換為星形模式),但在創(chuàng)建事實(shí)表和維度表時(shí),它更關(guān)乎設(shè)計(jì)而不是技術(shù)。盡管如此,Hive 并不真正是一個(gè)數(shù)據(jù)倉(cāng)庫(kù)。它甚至并不真正是一個(gè)數(shù)據(jù)庫(kù)。您可以使用 Hive 構(gòu)建和設(shè)計(jì)一個(gè)數(shù)據(jù)倉(cāng)庫(kù),也可以使用 Hive 構(gòu)建和設(shè)計(jì)數(shù)據(jù)庫(kù)表,但存在的一些限制需
禁止使用一個(gè)數(shù)據(jù)庫(kù)用戶運(yùn)行所有業(yè)務(wù) 違反規(guī)則的影響: 同一個(gè)數(shù)據(jù)庫(kù)用戶運(yùn)行所有業(yè)務(wù)不利于業(yè)務(wù)管控,異常場(chǎng)景無法針對(duì)特定用戶做緊急隔離。 方案建議: 根據(jù)用途規(guī)劃管理員、業(yè)務(wù)運(yùn)行賬號(hào)、運(yùn)維賬號(hào)等。 根據(jù)業(yè)務(wù)模塊進(jìn)行用戶細(xì)分,以便通過用戶進(jìn)行業(yè)務(wù)和資源的劃分和管控。 父主題: DWS對(duì)象設(shè)計(jì)規(guī)范
【建議】給可以顯式命名的約束顯式命名。除了NOT NULL和DEFAULT約束外,其他約束都可以顯式命名。 局部聚簇 Partial Cluster Key(局部聚簇,簡(jiǎn)稱PCK)是列存表的一種局部聚簇技術(shù),在DWS中,使用PCK可以通過min/max稀疏索引實(shí)現(xiàn)事實(shí)表快速過濾掃描。PCK的選取遵循以下原則:
【建議】給可以顯式命名的約束顯式命名。除了NOT NULL和DEFAULT約束外,其他約束都可以顯式命名。 局部聚簇 Partial Cluster Key(局部聚簇,簡(jiǎn)稱PCK)是列存表的一種局部聚簇技術(shù),在DWS中,使用PCK可以通過min/max稀疏索引實(shí)現(xiàn)事實(shí)表快速過濾掃描。PCK的選取遵循以下原則:
DWS字段設(shè)計(jì)規(guī)則 選擇數(shù)據(jù)類型 在字段設(shè)計(jì)時(shí),基于查詢效率的考慮,一般遵循以下原則: 【建議】盡量使用高效數(shù)據(jù)類型。 選擇數(shù)值類型時(shí),在滿足業(yè)務(wù)精度的情況下,選擇數(shù)據(jù)類型的優(yōu)先級(jí)從高到低依次為整數(shù)、浮點(diǎn)數(shù)、NUMERIC。 【建議】當(dāng)多個(gè)表存在邏輯關(guān)系時(shí),表示同一含義的字段應(yīng)該使用相同的數(shù)據(jù)類型。
DWS字段設(shè)計(jì)規(guī)則 選擇數(shù)據(jù)類型 在字段設(shè)計(jì)時(shí),基于查詢效率的考慮,一般遵循以下原則: 【建議】盡量使用高效數(shù)據(jù)類型。 選擇數(shù)值類型時(shí),在滿足業(yè)務(wù)精度的情況下,選擇數(shù)據(jù)類型的優(yōu)先級(jí)從高到低依次為整數(shù)、浮點(diǎn)數(shù)、NUMERIC。 【建議】當(dāng)多個(gè)表存在邏輯關(guān)系時(shí),表示同一含義的字段應(yīng)該使用相同的數(shù)據(jù)類型。
數(shù)據(jù)倉(cāng)庫(kù) 華為云數(shù)據(jù)倉(cāng)庫(kù)高級(jí)工程師培訓(xùn) 父主題: 培訓(xùn)服務(wù)
規(guī)則:數(shù)據(jù)庫(kù)設(shè)計(jì)與開發(fā)時(shí)必須遵守的約定。 建議:數(shù)據(jù)庫(kù)設(shè)計(jì)與開發(fā)時(shí)建議考慮的約定。 說明:對(duì)規(guī)則/建議進(jìn)行的詳細(xì)說明和解釋。 總體開發(fā)設(shè)計(jì)規(guī)范 下表是DWS開發(fā)過程中需遵循的開發(fā)設(shè)計(jì)規(guī)范全集列表,可以單擊鏈接跳轉(zhuǎn)到對(duì)應(yīng)的規(guī)則下了解詳細(xì)說明。 表1 DWS開發(fā)設(shè)計(jì)規(guī)范全集列表 編號(hào) 類別 規(guī)則/建議
選擇索引類型 違反規(guī)范的影響: 錯(cuò)誤的索引對(duì)列存的訪問無任何性能幫助,反而可能影響查詢性能。 方案建議: 創(chuàng)建索引時(shí)指定索引類型,避免使用默認(rèn)的PSORT類型索引。 極端點(diǎn)查(海量數(shù)據(jù)中檢索極少數(shù)據(jù))場(chǎng)景,可使用B-Tree類型索引。 范圍查詢性能要求高的場(chǎng)景,可以創(chuàng)建Partial
大表、事實(shí)表,無合適分布列的表。 Replication 表中的全量數(shù)據(jù)在集群的每一個(gè)DN實(shí)例上保留一份。 優(yōu)點(diǎn):每個(gè)DN上都有此表的全量數(shù)據(jù),JOIN操作中可以完全避免節(jié)點(diǎn)間數(shù)據(jù)通信,從而減小網(wǎng)絡(luò)開銷,同時(shí)減少了STREAM線程啟停開銷。 缺點(diǎn):每個(gè)DN都保留了表的完整數(shù)據(jù),數(shù)據(jù)的冗余,占用更多存儲(chǔ)空間。
型采用星形結(jié)構(gòu),表分兩類——事實(shí)表和維度表。事實(shí)表處于星星的中心,儲(chǔ)存能描述業(yè)務(wù)狀況的各種度量數(shù)據(jù),可以通過事實(shí)表了解業(yè)務(wù)狀況。維度表則圍繞著事實(shí)表,通過外鍵以一對(duì)一的形式相關(guān)聯(lián),提供看待業(yè)務(wù)狀況的不同角度。相比業(yè)務(wù)數(shù)據(jù)庫(kù)常用的E-R模型,星形結(jié)構(gòu)更容易理解,更方便進(jìn)行分析。</
數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)會(huì)來自各個(gè)業(yè)務(wù)系統(tǒng)數(shù)據(jù)或者外部爬取數(shù)據(jù),所以需要我們知道每個(gè)數(shù)據(jù)倉(cāng)庫(kù)的模型字段都是來自哪個(gè)源,這樣我們就能快速全面的了解相關(guān)業(yè)務(wù)。相對(duì)穩(wěn)定,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)一般不會(huì)實(shí)時(shí)變化,所以我們今天看去年的數(shù)據(jù)和明天看去年的數(shù)據(jù)是一樣的,如果我們發(fā)現(xiàn)某一個(gè)月度數(shù)據(jù)不對(duì),就可能需要
開源 中 中 定時(shí)任務(wù)調(diào)度和 ETL 從表中可以看出,不同的 ETL 工具適用于不同的場(chǎng)景,開發(fā)者需要根據(jù)項(xiàng)目需求選擇合適的工具。 2. 數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì):構(gòu)建高效的數(shù)據(jù)存儲(chǔ)架構(gòu) 數(shù)據(jù)倉(cāng)庫(kù)是一種面向主題的、集成的、非易失的、隨時(shí)間變化的數(shù)據(jù)集合,用于支持管理決策。良好的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)可以顯著提升查詢性能和數(shù)據(jù)分析效率。
Runbook的每個(gè)切換操作都可能會(huì)執(zhí)行失敗,要提前分析每個(gè)步驟發(fā)生執(zhí)行失敗時(shí)的決策項(xiàng),細(xì)分失敗場(chǎng)景,決策是回退還是繼續(xù)進(jìn)行,防止切換當(dāng)天決策組討論時(shí)間較長(zhǎng),無法決策的情況發(fā)生。 回退決策點(diǎn)設(shè)計(jì)原則如下: 每個(gè)切換階段設(shè)計(jì)最晚的執(zhí)行完時(shí)間,超時(shí)需要決策是否進(jìn)行回退。 核心表數(shù)據(jù)比對(duì)結(jié)果不一致,需要決策是否回退。
安全設(shè)計(jì)原則 華為云根據(jù)自身安全實(shí)踐和成功交付大量項(xiàng)目的經(jīng)驗(yàn),提煉了如下十大安全設(shè)計(jì)原則,你可以在此基礎(chǔ)上設(shè)計(jì)企業(yè)在云上的整體安全方案。 零信任原則(Zero Trust Principle) 遵循“永不信任,始終驗(yàn)證”的安全理念,假設(shè)任何人或程序都不可信,無論是內(nèi)部用戶、外部用
數(shù)據(jù)庫(kù) 與 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)庫(kù) 1)用于OLTP 2)數(shù)據(jù)庫(kù)是面向事物處理的,數(shù)據(jù)是由日常的業(yè)務(wù)產(chǎn)生的,會(huì)有頻繁的增刪改操作 3)數(shù)據(jù)庫(kù)一般用來存儲(chǔ)當(dāng)前事務(wù)性數(shù)據(jù),如交易數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù) 4)數(shù)據(jù)庫(kù)的設(shè)計(jì)一般是符合三范式的,有最大的精確度和最小的冗余度,有利于數(shù)據(jù)的操作 5)數(shù)