Memory Failure Prediction @ WWW Cup 2025 邀你來參加!
萬卡集群多部件,高耦合,故障發(fā)生牽一發(fā)動全身,高可用性是業(yè)界難題。WWW 2025 于悉尼舉辦,華為云聯(lián)合柏林工業(yè)大學(xué)以及中國科學(xué)技術(shù)大學(xué)發(fā)布 WWW Cup: Memory Failure Prediction Challenge,冠軍獎金 4.5 萬元,邀你來參加,共同探索數(shù)據(jù)中心集群穩(wěn)定性創(chuàng)新方案。

背景:
隨著人工智能、大數(shù)據(jù)、云計算等技術(shù)的飛速發(fā)展,云數(shù)據(jù)中心硬件可靠性已成為當(dāng)前業(yè)界廣泛關(guān)注的熱點。比如在大規(guī)模分布式訓(xùn)練場景中,單個節(jié)點的硬件故障可能導(dǎo)致整個訓(xùn)練任務(wù)中斷,甚至引發(fā)數(shù)據(jù)丟失或模型損壞。這不僅會造成大量計算資源和時間的浪費,還可能嚴(yán)重影響模型訓(xùn)練的收斂性和最終性能,硬件故障也是當(dāng)前大規(guī)模集群運營中面臨的最關(guān)鍵問題。
內(nèi)存作為計算機系統(tǒng)中關(guān)鍵部件,計算機中所有程序的運行都在內(nèi)存中進行,其穩(wěn)定性與可靠性直接關(guān)系到整個系統(tǒng)的運行效率和數(shù)據(jù)安全,尤其是高帶寬存儲器技術(shù)的應(yīng)用,更是將內(nèi)存的重要性推向了一個新的高度。

賽事:
Memory Failure Prediction @ WWW Cup 2025 發(fā)布了首個包含宏觀和微觀比特信息的大規(guī)模數(shù)據(jù)中心內(nèi)存運行狀態(tài)數(shù)據(jù)集 (SmartMem),并且根據(jù)實際應(yīng)用構(gòu)建了相應(yīng)的評測流程,旨在匯聚全球數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)領(lǐng)域的專家,共同探索和開發(fā)出能夠有效應(yīng)對開放世界機器學(xué)習(xí)問題的先進算法和技術(shù),以提高故障預(yù)測的準(zhǔn)確性和可信性。參賽者基于提供的內(nèi)存靜態(tài)信息、內(nèi)存故障地址數(shù)據(jù)、內(nèi)存糾錯信息,以及故障標(biāo)簽數(shù)據(jù),對內(nèi)存故障機理進行探索,挖掘出與內(nèi)存故障相關(guān)的特征,并構(gòu)建出一個能夠準(zhǔn)確預(yù)測是否會發(fā)生內(nèi)存故障的模型。

ACM International World Wide Web Conference(WWW)會議是信息檢索、推薦系統(tǒng)領(lǐng)域頂級會議 (CCF-A),從 1994 年開始每年舉辦,今年將會在 4 月 28 號在美麗的悉尼召開。本次比賽不僅提供最高 4.5 萬人民幣獎金,優(yōu)勝團隊還將受邀與來自業(yè)界和學(xué)術(shù)界的專家們在 workshop 中交流討論。通過本次競賽,我們期待推動硬件故障預(yù)測技術(shù)的突破,為構(gòu)建更加穩(wěn)定、可靠的算力基礎(chǔ)設(shè)施系統(tǒng)提供強有力的支持,同時也為開放世界機器學(xué)習(xí)領(lǐng)域的研究和實踐積累寶貴經(jīng)驗。

數(shù)據(jù)集以及入門工具包與基線均已發(fā)布,初賽報名提交截止時間 3 月 1 號,走過路過不要錯過喲!
報名鏈接:
參考鏈接:
[1] The Llama 3 Technical Report
[2] www.semianalysis.com
[3] Yu et.al, "Investigating Memory Failure Prediction Across CPU Architectures", DSN 2024