VLDB會議(International Conference on Very Large Data Bases)是全球數(shù)據(jù)庫系統(tǒng)領(lǐng)域最負(fù)盛名的三大頂級會議之一,VLDB’2023將于2023年8月28日-9月1日在加拿大溫哥華召開。華為云存儲創(chuàng)新Lab和華中科技大學(xué)合作完成的SIEVE論文在本次會議上被接收。
【論文信息】
Yulai Tong (HUST), Jiazhen Liu (HUST), Hua Wang (HUST), Ke Zhou (HUST), Rongfeng He(Huawei),Qin Zhang(Huawei), Cheng Wang (Huawei). “Sieve: A Learned Data-Skipping Index for Data Analytics”. International Conference on Very Large Data Bases (VLDB), Vancouver, Canada-August 28 to September 1, 2023.
【論文簡介】
現(xiàn)代數(shù)據(jù)分析平臺通常使用Amazon S3等外部數(shù)據(jù)存儲服務(wù)相結(jié)合,以適應(yīng)異構(gòu)的工作負(fù)載并滿足擴(kuò)縮容需求。但是這種存算分離式的部署方式容易造成高昂的計算存儲瓶頸,嚴(yán)重影響任務(wù)的執(zhí)行效率。為了緩解這一瓶頸,云廠商廣泛使用MinMax, Bloom過濾器等數(shù)據(jù)過濾索引來減少需要傳輸?shù)臄?shù)據(jù)塊。然而,現(xiàn)有工作忽略了數(shù)據(jù)在數(shù)據(jù)塊中的分布模式,從而無法有效地利用有限的存儲預(yù)算。
為了解決上述問題,我們提出了一個通過感知數(shù)據(jù)分布來進(jìn)行數(shù)據(jù)過濾的索引Sieve。Sieve通過擬合數(shù)據(jù)在數(shù)據(jù)塊中的分布趨勢來權(quán)衡索引開銷與過濾效果。我們在在大量真實數(shù)據(jù)集中進(jìn)行實驗,結(jié)果表明Sieve能夠在極少的索引開銷下相較于現(xiàn)有工作減少40%-80%的訪問數(shù)據(jù),并且同時支持點、范圍查詢?nèi)蝿?wù)。