靜默數(shù)據(jù)錯誤(Silent Data Corruption, SDC)是指數(shù)據(jù)在傳輸、存儲和處理過程中遭到修改或損壞,卻不會引發(fā)任何顯著的系統(tǒng)錯誤或警報。這種"無聲"的數(shù)據(jù)錯誤極難被及時發(fā)現(xiàn)和定位,最終可能導致計算結(jié)果的偏差甚至嚴重的決策失誤,為應對這一挑戰(zhàn),團隊致力于構(gòu)建可靠穩(wěn)定的數(shù)據(jù)計算基礎(chǔ)設(shè)施,確保數(shù)據(jù)在全生命周期中的安全與完整性,開啟數(shù)據(jù)可靠性的新紀元。
SDC測試用例設(shè)計
設(shè)計SDC測試用例的目標是通過離線或在線地運行測試用例,能夠快速、準確地發(fā)現(xiàn)SDC故障機器。通過計算機體系結(jié)構(gòu)仿真與故障硬件分析,探究SDC的出現(xiàn)機理與規(guī)律,進而有針對性地設(shè)計SDC測試用例,并且在保證測試覆蓋率的前提下不斷提升測試用例的運行效率。
在線測試用例編排調(diào)度
SDC測試用例在線調(diào)度的目標是在不影響現(xiàn)網(wǎng)運行的前提下,基于具體的負載類型、硬件種類、監(jiān)控指標,通過運籌優(yōu)化與時序預測算法,智能地在線選擇、編排SDC測試用例,充分利用空閑的計算資源,實現(xiàn)SDC測試用例的在線運行。
SDC智能定界定位
SDC智能定界定位的目標是在檢測、發(fā)現(xiàn)SDC故障后,基于運行日志、監(jiān)控指標,通過針對日志文本的關(guān)鍵信息提取分析、分類識別算法,智能快速地實現(xiàn)SDC故障定位,將疑似的故障組件范圍最小化,提升SDC故障的處理效率。