五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

研究方向

研究方向

云可用性工程Lab秉承開放共贏的理念,愿意與學(xué)術(shù)界和工業(yè)界各位精英就以下研究方向合作,如有意向請聯(lián)系luodaida@huawei.com

云可用性工程Lab秉承開放共贏的理念,愿意與學(xué)術(shù)界和工業(yè)界各位精英就以下研究方向合作,如有意向請聯(lián)系luodaida@huawei.com

AI系統(tǒng)可靠性

AI系統(tǒng)可靠性

隨著大模型時代的到來,AI應(yīng)用對算力需求呈指數(shù)級增長。團(tuán)隊聚焦于構(gòu)建高性能、高可靠性的AI集群基礎(chǔ)設(shè)施,致力于打造可靠穩(wěn)健的大規(guī)模AI計算引擎,通過前沿技術(shù)創(chuàng)新突破,確保大規(guī)模AI計算任務(wù)的持續(xù)穩(wěn)定運行。關(guān)鍵技術(shù)包括訓(xùn)練狀態(tài)保存與快速恢復(fù)、容錯訓(xùn)練與彈性訓(xùn)練、故障診斷與定界、故障模式分析與仿真等。

關(guān)鍵技術(shù)

訓(xùn)練狀態(tài)保存與快速恢復(fù)

訓(xùn)練狀態(tài)保存與快速恢復(fù)是AI集群可靠訓(xùn)練的關(guān)鍵技術(shù),需要支持異步快速分布式存儲ckpt,快速加載保存狀態(tài),自動化恢復(fù)過程,并支持集群橫向擴展,訓(xùn)練狀態(tài)保存和恢復(fù)能適應(yīng)集群變化,這些技術(shù)可大幅提高訓(xùn)練可靠性和迭代效率,是實現(xiàn)穩(wěn)定持續(xù)訓(xùn)練的關(guān)鍵所在。

容錯訓(xùn)練

容錯訓(xùn)練的目標(biāo)是讓AI系統(tǒng)能夠在出現(xiàn)故障或異常情況時保持穩(wěn)定運行,通過引入噪聲數(shù)據(jù)、丟失數(shù)據(jù)、網(wǎng)絡(luò)延遲等模擬故障場景進(jìn)行訓(xùn)練,提高系統(tǒng)魯棒性,并采用參數(shù)冗余訓(xùn)練、非一致性訓(xùn)練等機制,確保單點故障不會導(dǎo)致整個系統(tǒng)癱瘓。

彈性訓(xùn)練

彈性訓(xùn)練的目標(biāo)是讓AI系統(tǒng)能夠動態(tài)適應(yīng)環(huán)境變化,快速響應(yīng)需求變化,通過進(jìn)化算法、強化學(xué)習(xí)等技術(shù)讓系統(tǒng)自主學(xué)習(xí)和調(diào)整行為策略,使用節(jié)點狀態(tài)遷移、彈性擴縮容、進(jìn)程級重啟等技術(shù)實現(xiàn)資源彈性伸縮,根據(jù)負(fù)載情況動態(tài)分配計算、存儲等資源,支持快速擴容和縮容,提高資源利用效率和成本控制能力。

亞健康管理

亞健康管理

云計算系統(tǒng)中廣泛存在著亞健康問題,即硬件或系統(tǒng)處于非正常工作狀態(tài),但尚未引發(fā)顯著故障。這些隱藏性缺陷不僅影響云服務(wù)的成本,也可能導(dǎo)致客戶體驗下降甚至業(yè)務(wù)中斷,是云計算中的重大隱患。團(tuán)隊致力于構(gòu)建智能化的云計算亞健康管理體系,通過前沿技術(shù)創(chuàng)新,實現(xiàn)亞健康全面感知、自動診斷和快速修復(fù),提升云服務(wù)可靠性和可用性,為用戶帶來更優(yōu)質(zhì)的使用體驗。

關(guān)鍵技術(shù)

亞健康檢測與恢復(fù)

亞健康的檢測與恢復(fù)技術(shù)是亞健康管理的關(guān)鍵技術(shù),通過建立亞健康檢測和恢復(fù)體系,及早發(fā)現(xiàn)系統(tǒng)中的異常狀態(tài),將重大隱患消弭于無形。通過異常檢測技術(shù)識別系統(tǒng)中的亞健康,再通過根因分析的手段定位亞健康產(chǎn)生的原因,最終自動決策選擇合適的處理手段,最終實現(xiàn)系統(tǒng)可靠性和可用性的提升。

根因分析與可解釋AI

亞健康故障具有隱蔽、界限模糊的特點,因此根因分析與可解釋AI是亞健康檢測應(yīng)用于實際場景時不可或缺的能力。通過自動分析亞健康傳播的鏈路、模型解釋亞健康檢測結(jié)果、模型自適應(yīng)嵌入業(yè)務(wù)知識,使算法在不同的場景下均能產(chǎn)生足以令人信服的結(jié)果,以更好地配合運維工程師完成亞健康管理。

亞健康故障注入

亞健康故障注入是評價亞健康檢測能力的關(guān)鍵技術(shù)。由于亞健康故障在真實場景下較為稀缺,通過真實數(shù)據(jù)往往難以驗證檢測能力在不同場景下的完備性,因此必需通過亞健康注入技術(shù)來保證算法的可靠性。亞健康注入技術(shù)涉及更加隱蔽、模糊的故障,相較于傳統(tǒng)的故障注入技術(shù)更加具有挑戰(zhàn)性。

硬件故障智能管理

硬件故障智能管理

云計算基礎(chǔ)設(shè)施的穩(wěn)定性是大數(shù)據(jù)和人工智能等產(chǎn)業(yè)發(fā)展的重要保障。隨著數(shù)據(jù)中心規(guī)模的不斷擴大,硬件設(shè)備種類繁多,云計算服務(wù)的可用性、可靠性、性能、效率、安全性和可持續(xù)性變得至關(guān)重要。團(tuán)隊致力于推進(jìn)數(shù)據(jù)中心硬件故障的智能化管理,通過跨領(lǐng)域知識的融合創(chuàng)新,構(gòu)建自主、前瞻、全面的智能云底座,為AI時代的云計算服務(wù)提供更加穩(wěn)定可靠的基礎(chǔ)設(shè)施支撐。

關(guān)鍵技術(shù)

智能故障預(yù)測

在當(dāng)今大規(guī)模數(shù)據(jù)中心中內(nèi)存,硬盤等硬件故障問題頻發(fā),導(dǎo)致服務(wù)器乃至整個IT基礎(chǔ)設(shè)施穩(wěn)定性,可靠性下降。智能故障預(yù)測的目標(biāo)是通過對硬件微觀層面故障數(shù)據(jù)進(jìn)行學(xué)習(xí)和挖掘,構(gòu)建硬件故障預(yù)測系統(tǒng),通過提前發(fā)現(xiàn)與處置,提高云計算基礎(chǔ)設(shè)施穩(wěn)定性。

自動故障診斷

自動故障診斷的目標(biāo)是通過自動化手段來識別和定位系統(tǒng)或設(shè)備中出現(xiàn)的故障。隨著系統(tǒng)規(guī)模的不斷擴大,傳統(tǒng)的依靠人工排查故障的方法已變得不切實際,自動故障診斷技術(shù)通過對系統(tǒng)及硬件數(shù)據(jù)的分析與診斷,快速定位故障設(shè)備,可大大降低因故障導(dǎo)致的停機時間,提升系統(tǒng)可靠性及穩(wěn)定性。

故障自愈及處置

通過對硬件故障的診斷分析,在不影響服務(wù)穩(wěn)定性情況下,系統(tǒng)自動進(jìn)行故障隔離與處置,如硬件替換等,可大幅提升傳統(tǒng)人為處置時效性,提升系統(tǒng)穩(wěn)定性。

靜默數(shù)據(jù)錯誤

靜默數(shù)據(jù)錯誤

靜默數(shù)據(jù)錯誤(Silent Data Corruption, SDC)是指數(shù)據(jù)在傳輸、存儲和處理過程中遭到修改或損壞,卻不會引發(fā)任何顯著的系統(tǒng)錯誤或警報。這種"無聲"的數(shù)據(jù)錯誤極難被及時發(fā)現(xiàn)和定位,最終可能導(dǎo)致計算結(jié)果的偏差甚至嚴(yán)重的決策失誤,為應(yīng)對這一挑戰(zhàn),團(tuán)隊致力于構(gòu)建可靠穩(wěn)定的數(shù)據(jù)計算基礎(chǔ)設(shè)施,確保數(shù)據(jù)在全生命周期中的安全與完整性,開啟數(shù)據(jù)可靠性的新紀(jì)元。

關(guān)鍵技術(shù)

SDC測試用例設(shè)計

設(shè)計SDC測試用例的目標(biāo)是通過離線或在線地運行測試用例,能夠快速、準(zhǔn)確地發(fā)現(xiàn)SDC故障機器。通過計算機體系結(jié)構(gòu)仿真與故障硬件分析,探究SDC的出現(xiàn)機理與規(guī)律,進(jìn)而有針對性地設(shè)計SDC測試用例,并且在保證測試覆蓋率的前提下不斷提升測試用例的運行效率。

在線測試用例編排調(diào)度

SDC測試用例在線調(diào)度的目標(biāo)是在不影響現(xiàn)網(wǎng)運行的前提下,基于具體的負(fù)載類型、硬件種類、監(jiān)控指標(biāo),通過運籌優(yōu)化與時序預(yù)測算法,智能地在線選擇、編排SDC測試用例,充分利用空閑的計算資源,實現(xiàn)SDC測試用例的在線運行。

SDC智能定界定位

SDC智能定界定位的目標(biāo)是在檢測、發(fā)現(xiàn)SDC故障后,基于運行日志、監(jiān)控指標(biāo),通過針對日志文本的關(guān)鍵信息提取分析、分類識別算法,智能快速地實現(xiàn)SDC故障定位,將疑似的故障組件范圍最小化,提升SDC故障的處理效率。

形式化驗證

形式化驗證

隨著云計算業(yè)務(wù)規(guī)模快速增長,系統(tǒng)復(fù)雜性不斷增加。團(tuán)隊致力于為云服務(wù)提供安全、穩(wěn)定、高質(zhì)量的保證,通過在最頂層的架構(gòu)設(shè)計時采用形式化驗證,將安全、可靠作為原始出發(fā)點,提升系統(tǒng)級可靠性,以證明系統(tǒng)的設(shè)計和實現(xiàn)符合預(yù)定的屬性和要求。針對架構(gòu)/協(xié)議的形式化驗證,需要綜合運用驗證語言、模型檢查、符號推理、定理證明等關(guān)鍵技術(shù)。

關(guān)鍵技術(shù)

模型檢查

研究模型檢查算法,如狀態(tài)空間探索、圖遍歷算法等,提高模型檢查的效率和可擴展性,使其能夠應(yīng)用于更大規(guī)模的系統(tǒng);

定理證明

自動和交互式定理證明技術(shù),如Coq、Isabelle等,提供更強大的證明能力,以驗證復(fù)雜的系統(tǒng)屬性;

自動化和工具集成

致力于開發(fā)和集成自動化的形式化驗證工具,無縫集成上述工具到現(xiàn)有的軟件開發(fā)流程中,幫助開發(fā)人員在早期發(fā)現(xiàn)潛在的問題,從而降低后期修復(fù)的成本和風(fēng)險。

混沌工程與可靠性評估

混沌工程與可靠性評估

在萬物互聯(lián)的數(shù)字化時代,應(yīng)用上云已然成為一種趨勢,云服務(wù)穩(wěn)定性關(guān)系著國計民生,為了簡單、高效的評估云服務(wù)和云上應(yīng)用的可用性,團(tuán)隊致力于基于前沿的混沌工程方法論,設(shè)計科學(xué)實驗,挖掘未知故障對系統(tǒng)影響;主動引入故障,量化云系統(tǒng)的可靠性能力,幫助企業(yè)構(gòu)建穩(wěn)健的云上基礎(chǔ)設(shè)施,為企業(yè)數(shù)字化轉(zhuǎn)型保駕護(hù)航。

關(guān)鍵技術(shù)

故障模擬與仿真

云計算持續(xù)向高可靠、高性能、可維護(hù)方向發(fā)展,引入了新硬件(如NPU、SDI卡)、新架構(gòu)(云原生、serverless和regionless)和新協(xié)議(ipv6,UB)等,新技術(shù)的可靠性評估驗證是值得探究的課題。主要研究方向包括:新硬件、架構(gòu)、協(xié)議的內(nèi)生、透明、可信、可觀測的自動化故障注入能力構(gòu)建;基于仿真系統(tǒng)故障注入和影響研究;故障注入結(jié)果的自動化斷言。

流量錄制與回放

測試環(huán)境受限于規(guī)格、配置的不同,其驗證結(jié)果不足以充分說明生產(chǎn)環(huán)境的實際情況。而在生產(chǎn)環(huán)境中引入故障,對云服務(wù)和租戶應(yīng)用的可靠性評估,充滿了危險和不確定性。此外,因為云的彈性伸縮和敏捷開發(fā)特性,云架構(gòu)也是實時變化的,進(jìn)一步增加了評估難度?;谝陨媳尘?,研究方向包括:應(yīng)用架構(gòu)的實時感知;充分評估故障注入的影響范圍,即爆炸半徑;通過流量進(jìn)行染色、錄制和回放有效控制租戶和應(yīng)用的影響范圍。

AI增強測試評估

隨著AI和大模型的發(fā)展,AI增強測試評估成為了一個熱門話題。研究方向包括:在系統(tǒng)中實時感知應(yīng)用架構(gòu)和環(huán)境、智能設(shè)計實驗、自動化監(jiān)控執(zhí)行結(jié)果并正向反饋和基于LLM的實驗報告和建議。