五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

研究方向

研究方向

云可用性工程Lab秉承開放共贏的理念,愿意與學術(shù)界和工業(yè)界各位精英就以下研究方向合作,如有意向請聯(lián)系luodaida@huawei.com

云可用性工程Lab秉承開放共贏的理念,愿意與學術(shù)界和工業(yè)界各位精英就以下研究方向合作,如有意向請聯(lián)系luodaida@huawei.com

AI系統(tǒng)可靠性

AI系統(tǒng)可靠性

隨著大模型時代的到來,AI應用對算力需求呈指數(shù)級增長。團隊聚焦于構(gòu)建高性能、高可靠性的AI集群基礎(chǔ)設(shè)施,致力于打造可靠穩(wěn)健的大規(guī)模AI計算引擎,通過前沿技術(shù)創(chuàng)新突破,確保大規(guī)模AI計算任務的持續(xù)穩(wěn)定運行。關(guān)鍵技術(shù)包括訓練狀態(tài)保存與快速恢復、容錯訓練與彈性訓練、故障診斷與定界、故障模式分析與仿真等。

關(guān)鍵技術(shù)

訓練狀態(tài)保存與快速恢復

訓練狀態(tài)保存與快速恢復是AI集群可靠訓練的關(guān)鍵技術(shù),需要支持異步快速分布式存儲ckpt,快速加載保存狀態(tài),自動化恢復過程,并支持集群橫向擴展,訓練狀態(tài)保存和恢復能適應集群變化,這些技術(shù)可大幅提高訓練可靠性和迭代效率,是實現(xiàn)穩(wěn)定持續(xù)訓練的關(guān)鍵所在。

容錯訓練

容錯訓練的目標是讓AI系統(tǒng)能夠在出現(xiàn)故障或異常情況時保持穩(wěn)定運行,通過引入噪聲數(shù)據(jù)、丟失數(shù)據(jù)、網(wǎng)絡延遲等模擬故障場景進行訓練,提高系統(tǒng)魯棒性,并采用參數(shù)冗余訓練、非一致性訓練等機制,確保單點故障不會導致整個系統(tǒng)癱瘓。

彈性訓練

彈性訓練的目標是讓AI系統(tǒng)能夠動態(tài)適應環(huán)境變化,快速響應需求變化,通過進化算法、強化學習等技術(shù)讓系統(tǒng)自主學習和調(diào)整行為策略,使用節(jié)點狀態(tài)遷移、彈性擴縮容、進程級重啟等技術(shù)實現(xiàn)資源彈性伸縮,根據(jù)負載情況動態(tài)分配計算、存儲等資源,支持快速擴容和縮容,提高資源利用效率和成本控制能力。

亞健康管理

亞健康管理

云計算系統(tǒng)中廣泛存在著亞健康問題,即硬件或系統(tǒng)處于非正常工作狀態(tài),但尚未引發(fā)顯著故障。這些隱藏性缺陷不僅影響云服務的成本,也可能導致客戶體驗下降甚至業(yè)務中斷,是云計算中的重大隱患。團隊致力于構(gòu)建智能化的云計算亞健康管理體系,通過前沿技術(shù)創(chuàng)新,實現(xiàn)亞健康全面感知、自動診斷和快速修復,提升云服務可靠性和可用性,為用戶帶來更優(yōu)質(zhì)的使用體驗。

關(guān)鍵技術(shù)

亞健康檢測與恢復

亞健康的檢測與恢復技術(shù)是亞健康管理的關(guān)鍵技術(shù),通過建立亞健康檢測和恢復體系,及早發(fā)現(xiàn)系統(tǒng)中的異常狀態(tài),將重大隱患消弭于無形。通過異常檢測技術(shù)識別系統(tǒng)中的亞健康,再通過根因分析的手段定位亞健康產(chǎn)生的原因,最終自動決策選擇合適的處理手段,最終實現(xiàn)系統(tǒng)可靠性和可用性的提升。

根因分析與可解釋AI

亞健康故障具有隱蔽、界限模糊的特點,因此根因分析與可解釋AI是亞健康檢測應用于實際場景時不可或缺的能力。通過自動分析亞健康傳播的鏈路、模型解釋亞健康檢測結(jié)果、模型自適應嵌入業(yè)務知識,使算法在不同的場景下均能產(chǎn)生足以令人信服的結(jié)果,以更好地配合運維工程師完成亞健康管理。

亞健康故障注入

亞健康故障注入是評價亞健康檢測能力的關(guān)鍵技術(shù)。由于亞健康故障在真實場景下較為稀缺,通過真實數(shù)據(jù)往往難以驗證檢測能力在不同場景下的完備性,因此必需通過亞健康注入技術(shù)來保證算法的可靠性。亞健康注入技術(shù)涉及更加隱蔽、模糊的故障,相較于傳統(tǒng)的故障注入技術(shù)更加具有挑戰(zhàn)性。

硬件故障智能管理

硬件故障智能管理

云計算基礎(chǔ)設(shè)施的穩(wěn)定性是大數(shù)據(jù)和人工智能等產(chǎn)業(yè)發(fā)展的重要保障。隨著數(shù)據(jù)中心規(guī)模的不斷擴大,硬件設(shè)備種類繁多,云計算服務的可用性、可靠性、性能、效率、安全性和可持續(xù)性變得至關(guān)重要。團隊致力于推進數(shù)據(jù)中心硬件故障的智能化管理,通過跨領(lǐng)域知識的融合創(chuàng)新,構(gòu)建自主、前瞻、全面的智能云底座,為AI時代的云計算服務提供更加穩(wěn)定可靠的基礎(chǔ)設(shè)施支撐。

關(guān)鍵技術(shù)

智能故障預測

在當今大規(guī)模數(shù)據(jù)中心中內(nèi)存,硬盤等硬件故障問題頻發(fā),導致服務器乃至整個IT基礎(chǔ)設(shè)施穩(wěn)定性,可靠性下降。智能故障預測的目標是通過對硬件微觀層面故障數(shù)據(jù)進行學習和挖掘,構(gòu)建硬件故障預測系統(tǒng),通過提前發(fā)現(xiàn)與處置,提高云計算基礎(chǔ)設(shè)施穩(wěn)定性。

自動故障診斷

自動故障診斷的目標是通過自動化手段來識別和定位系統(tǒng)或設(shè)備中出現(xiàn)的故障。隨著系統(tǒng)規(guī)模的不斷擴大,傳統(tǒng)的依靠人工排查故障的方法已變得不切實際,自動故障診斷技術(shù)通過對系統(tǒng)及硬件數(shù)據(jù)的分析與診斷,快速定位故障設(shè)備,可大大降低因故障導致的停機時間,提升系統(tǒng)可靠性及穩(wěn)定性。

故障自愈及處置

通過對硬件故障的診斷分析,在不影響服務穩(wěn)定性情況下,系統(tǒng)自動進行故障隔離與處置,如硬件替換等,可大幅提升傳統(tǒng)人為處置時效性,提升系統(tǒng)穩(wěn)定性。

靜默數(shù)據(jù)錯誤

靜默數(shù)據(jù)錯誤

靜默數(shù)據(jù)錯誤(Silent Data Corruption, SDC)是指數(shù)據(jù)在傳輸、存儲和處理過程中遭到修改或損壞,卻不會引發(fā)任何顯著的系統(tǒng)錯誤或警報。這種"無聲"的數(shù)據(jù)錯誤極難被及時發(fā)現(xiàn)和定位,最終可能導致計算結(jié)果的偏差甚至嚴重的決策失誤,為應對這一挑戰(zhàn),團隊致力于構(gòu)建可靠穩(wěn)定的數(shù)據(jù)計算基礎(chǔ)設(shè)施,確保數(shù)據(jù)在全生命周期中的安全與完整性,開啟數(shù)據(jù)可靠性的新紀元。

關(guān)鍵技術(shù)

SDC測試用例設(shè)計

設(shè)計SDC測試用例的目標是通過離線或在線地運行測試用例,能夠快速、準確地發(fā)現(xiàn)SDC故障機器。通過計算機體系結(jié)構(gòu)仿真與故障硬件分析,探究SDC的出現(xiàn)機理與規(guī)律,進而有針對性地設(shè)計SDC測試用例,并且在保證測試覆蓋率的前提下不斷提升測試用例的運行效率。

在線測試用例編排調(diào)度

SDC測試用例在線調(diào)度的目標是在不影響現(xiàn)網(wǎng)運行的前提下,基于具體的負載類型、硬件種類、監(jiān)控指標,通過運籌優(yōu)化與時序預測算法,智能地在線選擇、編排SDC測試用例,充分利用空閑的計算資源,實現(xiàn)SDC測試用例的在線運行。

SDC智能定界定位

SDC智能定界定位的目標是在檢測、發(fā)現(xiàn)SDC故障后,基于運行日志、監(jiān)控指標,通過針對日志文本的關(guān)鍵信息提取分析、分類識別算法,智能快速地實現(xiàn)SDC故障定位,將疑似的故障組件范圍最小化,提升SDC故障的處理效率。

形式化驗證

形式化驗證

隨著云計算業(yè)務規(guī)??焖僭鲩L,系統(tǒng)復雜性不斷增加。團隊致力于為云服務提供安全、穩(wěn)定、高質(zhì)量的保證,通過在最頂層的架構(gòu)設(shè)計時采用形式化驗證,將安全、可靠作為原始出發(fā)點,提升系統(tǒng)級可靠性,以證明系統(tǒng)的設(shè)計和實現(xiàn)符合預定的屬性和要求。針對架構(gòu)/協(xié)議的形式化驗證,需要綜合運用驗證語言、模型檢查、符號推理、定理證明等關(guān)鍵技術(shù)。

關(guān)鍵技術(shù)

模型檢查

研究模型檢查算法,如狀態(tài)空間探索、圖遍歷算法等,提高模型檢查的效率和可擴展性,使其能夠應用于更大規(guī)模的系統(tǒng);

定理證明

自動和交互式定理證明技術(shù),如Coq、Isabelle等,提供更強大的證明能力,以驗證復雜的系統(tǒng)屬性;

自動化和工具集成

致力于開發(fā)和集成自動化的形式化驗證工具,無縫集成上述工具到現(xiàn)有的軟件開發(fā)流程中,幫助開發(fā)人員在早期發(fā)現(xiàn)潛在的問題,從而降低后期修復的成本和風險。

混沌工程與可靠性評估

混沌工程與可靠性評估

在萬物互聯(lián)的數(shù)字化時代,應用上云已然成為一種趨勢,云服務穩(wěn)定性關(guān)系著國計民生,為了簡單、高效的評估云服務和云上應用的可用性,團隊致力于基于前沿的混沌工程方法論,設(shè)計科學實驗,挖掘未知故障對系統(tǒng)影響;主動引入故障,量化云系統(tǒng)的可靠性能力,幫助企業(yè)構(gòu)建穩(wěn)健的云上基礎(chǔ)設(shè)施,為企業(yè)數(shù)字化轉(zhuǎn)型保駕護航。

關(guān)鍵技術(shù)

故障模擬與仿真

云計算持續(xù)向高可靠、高性能、可維護方向發(fā)展,引入了新硬件(如NPU、SDI卡)、新架構(gòu)(云原生、serverless和regionless)和新協(xié)議(ipv6,UB)等,新技術(shù)的可靠性評估驗證是值得探究的課題。主要研究方向包括:新硬件、架構(gòu)、協(xié)議的內(nèi)生、透明、可信、可觀測的自動化故障注入能力構(gòu)建;基于仿真系統(tǒng)故障注入和影響研究;故障注入結(jié)果的自動化斷言。

流量錄制與回放

測試環(huán)境受限于規(guī)格、配置的不同,其驗證結(jié)果不足以充分說明生產(chǎn)環(huán)境的實際情況。而在生產(chǎn)環(huán)境中引入故障,對云服務和租戶應用的可靠性評估,充滿了危險和不確定性。此外,因為云的彈性伸縮和敏捷開發(fā)特性,云架構(gòu)也是實時變化的,進一步增加了評估難度?;谝陨媳尘?,研究方向包括:應用架構(gòu)的實時感知;充分評估故障注入的影響范圍,即爆炸半徑;通過流量進行染色、錄制和回放有效控制租戶和應用的影響范圍。

AI增強測試評估

隨著AI和大模型的發(fā)展,AI增強測試評估成為了一個熱門話題。研究方向包括:在系統(tǒng)中實時感知應用架構(gòu)和環(huán)境、智能設(shè)計實驗、自動化監(jiān)控執(zhí)行結(jié)果并正向反饋和基于LLM的實驗報告和建議。