9月5日,數(shù)據(jù)庫(kù)頂級(jí)國(guó)際會(huì)議VLDB(International Conference on Very Large Databases)于澳大利亞悉尼召開(kāi)。VLDB(CCF A類(lèi))與SIGMOD、ICDE并稱(chēng)數(shù)據(jù)庫(kù)三大頂級(jí)會(huì)議。此次,華為云數(shù)據(jù)庫(kù)創(chuàng)新LAB有三篇論文被VLDB收錄,研究?jī)?nèi)容包含內(nèi)存數(shù)據(jù)庫(kù)索引、時(shí)間序列異常檢測(cè)、時(shí)間序列預(yù)測(cè)等方向:
《Index Checkpoints for Instant Recovery in In-Memory Database Systems》:本論文在業(yè)內(nèi)首次提出針對(duì)內(nèi)存數(shù)據(jù)庫(kù)索引結(jié)構(gòu)的頻繁檢查點(diǎn)技術(shù),填補(bǔ)了學(xué)術(shù)和工業(yè)界在內(nèi)存數(shù)據(jù)庫(kù)索引數(shù)據(jù)快速恢復(fù)方向的技術(shù)空白。該技術(shù)是華為云原生數(shù)據(jù)庫(kù)HiEngine追求極致RTO恢復(fù)目標(biāo)的關(guān)鍵,與學(xué)術(shù)界經(jīng)典的SiloR系統(tǒng)的200s恢復(fù)時(shí)間相比有極大的提升;該技術(shù)也能保證檢查點(diǎn)執(zhí)行期間系統(tǒng)性能幾乎不發(fā)生抖動(dòng),確保數(shù)據(jù)庫(kù)用戶(hù)的體驗(yàn)。
《Unsupervised Time Series Outlier Detection with Diversity-Driven Convolutional Ensembles》:在時(shí)序數(shù)據(jù)庫(kù)領(lǐng)域,對(duì)已寫(xiě)入的數(shù)據(jù)做異常檢測(cè)是數(shù)據(jù)庫(kù)的重要功能之一。針對(duì)時(shí)間序列數(shù)據(jù)的異常檢測(cè)問(wèn)題,本文提出了基于CNN-AutoEncoder和集成學(xué)習(xí)技術(shù)的CAE-ENSEMBLE深度神經(jīng)網(wǎng)絡(luò)算法,并通過(guò)大量的實(shí)驗(yàn)證明CAE-ENSEMBLE算法能有效提高時(shí)間序列離群點(diǎn)檢測(cè)的準(zhǔn)確度與效率。
《METRO:A Generic Graph Neural Network Framework for Multivariate Time Series Forecasting》:對(duì)庫(kù)內(nèi)的數(shù)據(jù)進(jìn)行時(shí)序預(yù)測(cè)是時(shí)序數(shù)據(jù)庫(kù)的一大亮點(diǎn)功能。針對(duì)時(shí)序預(yù)測(cè)問(wèn)題,本論文提出了時(shí)序預(yù)測(cè)算法METRO。METRO是基于自注意力機(jī)制(self-attention)的深度學(xué)習(xí)算法。該算法能有效學(xué)習(xí)歷史數(shù)據(jù)的多種周期性以及提取不同時(shí)間線(xiàn)的相關(guān)性,為時(shí)序預(yù)測(cè)任務(wù)提供更準(zhǔn)確的結(jié)果,使時(shí)序數(shù)據(jù)庫(kù)具有強(qiáng)大的分析能力。目前METRO已經(jīng)作為GaussDB for Influx的時(shí)序預(yù)測(cè)算子在華為云上線(xiàn),應(yīng)用場(chǎng)景包括對(duì)服務(wù)器容量指標(biāo)進(jìn)行預(yù)測(cè),指導(dǎo)服務(wù)器擴(kuò)容操作;以及對(duì)交通路段擁堵程度預(yù)測(cè),動(dòng)態(tài)指導(dǎo)地圖路徑規(guī)劃等。結(jié)合METRO提供的強(qiáng)大分析能力以及GaussDB for Influx已有的超大規(guī)模時(shí)間線(xiàn)快速讀寫(xiě)能力,GaussDB for Influx已具備從大規(guī)模時(shí)序數(shù)據(jù)中持續(xù)挖掘數(shù)據(jù)潛在價(jià)值的能力。