五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

研究領(lǐng)域

  • 大模型訓(xùn)練配置優(yōu)化

    通過模型信息和訓(xùn)練資源信息,充分考慮訓(xùn)練設(shè)備在算力、顯存、帶寬的異構(gòu)性質(zhì),結(jié)合數(shù)據(jù)并行、流水線并行、張量并行、專家并行等多種并行策略,智能決策訓(xùn)練配置,適配訓(xùn)練、硬件的資源調(diào)度,優(yōu)化大模型訓(xùn)練的端到端時間。

  • 大模型彈性推理與算子優(yōu)化

    彈性推理是在動態(tài)環(huán)境中進行推理計算,能夠適應(yīng)資源的變化和故障,保證推理服務(wù)的穩(wěn)定性和可靠性。彈性推理研究聚焦于:動態(tài)成員管理,允許推理節(jié)點加入或離開,保證推理服務(wù)的連續(xù)性。狀態(tài)一致性,保證所有節(jié)點共享一致狀態(tài),即使發(fā)生節(jié)點故障/加入。通信算子優(yōu)化,通過拓撲感知、內(nèi)建可觀測能力,充分利用網(wǎng)絡(luò)帶寬,提高通信效率。計算算子優(yōu)化,通過Tilling策略優(yōu)化,zero-copy等技術(shù)提高計算效率。利用多流、異步下發(fā)機制實現(xiàn)計算與通信重疊,提高推理效率。

  • 大模型云網(wǎng)絡(luò)可靠性研究

    聚焦大模型分布式訓(xùn)練中的參數(shù)通信網(wǎng)絡(luò)可靠性問題,重點解決CloudMatrix384超平面網(wǎng)絡(luò)架構(gòu)因光模塊引入導(dǎo)致的故障率激增挑戰(zhàn)。研究內(nèi)容包括:1)基于軟硬件協(xié)同設(shè)計的網(wǎng)絡(luò)故障容錯機制;2)總線網(wǎng)絡(luò)特殊性問題(如傳輸層重傳缺失、信用證機制等)的故障解決方案;3)系統(tǒng)容錯后亞健康狀態(tài)的檢測與優(yōu)化,研發(fā)降低業(yè)務(wù)影響的動態(tài)快恢技術(shù)。

  • 大模型推理業(yè)務(wù)快速恢復(fù)研究

    針對大模型推理服務(wù)的連續(xù)性保障需求,構(gòu)建多層次的容錯恢復(fù)體系:1)基于故障類型分級處理的容錯架構(gòu),優(yōu)先實現(xiàn)租戶無感知的故障恢復(fù);2)面向必須進程重啟的嚴重故障場景,研發(fā)進程快照、資源動態(tài)調(diào)配等快速恢復(fù)技術(shù),顯著縮短推理服務(wù)中斷時長。

  • 大模型推理極致性價比

    大模型推理的巨大計算成本是其落地應(yīng)用的瓶頸。研究聚焦于模型結(jié)構(gòu)(Attention量化、MA分離、transformerless等)、高效推理引擎優(yōu)化(算子融合、內(nèi)存管理、硬件適配)、專家并行負載均衡等,力求在保持最小化精度損失的前提下,顯著提升推理速度、降低資源消耗,讓強大的推理能力能在更多設(shè)備和場景中實時運行。

  • 云網(wǎng)絡(luò)系統(tǒng)架構(gòu)優(yōu)化

    圍繞業(yè)務(wù)重點需求與核心痛點,對云網(wǎng)絡(luò)系統(tǒng)中的局部組件或整體架構(gòu)進行優(yōu)化重構(gòu),涵蓋云網(wǎng)關(guān),虛擬交換機,虛擬網(wǎng)絡(luò)控制器等各云網(wǎng)絡(luò)組件。當前正在投入云網(wǎng)關(guān)平臺化架構(gòu)的研究探索。

  • 網(wǎng)絡(luò)云服務(wù)創(chuàng)新孵化

    設(shè)計孵化新網(wǎng)絡(luò)服務(wù)或原有網(wǎng)絡(luò)服務(wù)的新特性,以滿足客戶提出或自主識別的大顆粒關(guān)鍵功能訴求。

  • 網(wǎng)絡(luò)測量

    研究廣域網(wǎng)QoS的探測、表征以及故障定位和定界;研究方向包括通過主動測量、被動測量以及主動和被動相結(jié)合的方式。

  • 流量調(diào)度和優(yōu)化

    通過動態(tài)感知網(wǎng)絡(luò)故障,主動繞過擁塞鏈路,降低用戶服務(wù)中斷時間;通過感知網(wǎng)絡(luò)質(zhì)量變化,主動優(yōu)化用戶公網(wǎng)訪問路徑,解決錯綜復(fù)雜的運營商互聯(lián)帶來的網(wǎng)絡(luò)路由不優(yōu)和質(zhì)量惡化問題。

  • 網(wǎng)絡(luò)異常檢測

    對海量的網(wǎng)絡(luò)運維KPI、日志等原始數(shù)據(jù),通過大數(shù)據(jù)平臺結(jié)合AI算法,實現(xiàn)網(wǎng)絡(luò)故障的及時發(fā)現(xiàn),對資源類的指標通過算法預(yù)測,做到故障預(yù)警,保障網(wǎng)路高可用的達成。

  • 網(wǎng)絡(luò)決策

    通過故障大盤,收集網(wǎng)絡(luò)的拓撲、服務(wù)關(guān)系、告警、事件以及設(shè)備狀態(tài)信息,智能的決策故障的影響有多大,根因組件在哪,并根據(jù)歷史知識學(xué)習(xí),推薦解決方案,邁出網(wǎng)絡(luò)自動駕駛的重要一步。

  • 網(wǎng)絡(luò)數(shù)字孿生

    通過模型和圖數(shù)據(jù)庫,將網(wǎng)絡(luò)的拓撲、配置信息、版本信息、服務(wù)、指標依賴關(guān)系管理起來,并提供多種查詢和知識挖掘的能力,支撐網(wǎng)絡(luò)異常判斷、根因分析、自動化變更的實現(xiàn)。

  • Regionless

    采用Regionless架構(gòu),我們可以讓應(yīng)用自動地運行在多個地區(qū)數(shù)據(jù)中心中,并利用不同地區(qū)基礎(chǔ)設(shè)施的優(yōu)勢來提高應(yīng)用程序的運行效率。其中,Regionless編程框架支持應(yīng)用程序的SLA分發(fā);Regionless數(shù)據(jù)服務(wù)支持應(yīng)用狀態(tài)的跨地區(qū)流動;全球網(wǎng)絡(luò)基礎(chǔ)設(shè)施支持分發(fā)基礎(chǔ)設(shè)施的高可靠/高性價比。

  • 可編程網(wǎng)絡(luò)

    圍繞網(wǎng)絡(luò)操作系統(tǒng)、接口、協(xié)議、芯片等領(lǐng)域,研究測量、虛擬化、在網(wǎng)加速等分布式網(wǎng)絡(luò)系統(tǒng),軟硬協(xié)同,打造業(yè)務(wù)定義的可編程網(wǎng)絡(luò),重構(gòu)云網(wǎng)絡(luò),加速計算與網(wǎng)絡(luò)創(chuàng)新,提升網(wǎng)絡(luò)性能與性價比。

  • 資源智能畫像與應(yīng)用

    對海量云上資源監(jiān)控數(shù)據(jù)進行ML建模分析,通過離線訓(xùn)練建立云上負載特征模型,提供線上系統(tǒng)基于這些資源使用趨勢和特征做出合理的決策。根據(jù)不同應(yīng)用場景,對算法進行優(yōu)化,并與業(yè)務(wù)方基于智能畫像分析技術(shù)進行聯(lián)合創(chuàng)新。

  • 資源管理調(diào)度系統(tǒng)

    針對云上實例多樣、集群龐大、資源共享等特點,構(gòu)建新一代集群資源管理調(diào)度系統(tǒng)。除了關(guān)注資源統(tǒng)一、性能問題,更關(guān)注資源利用率、實例間干擾、業(yè)務(wù)特征等深層次影響資源使用效率的問題,對此進行關(guān)鍵技術(shù)突破,實現(xiàn)閉環(huán)、高效的資源管理調(diào)度系統(tǒng)。

  • 軟硬協(xié)同

    結(jié)合智能網(wǎng)卡、SDI卡等硬件實現(xiàn)性能提升和管理成本節(jié)約,并在此基礎(chǔ)上對OS、虛擬化層在資源開銷、性能、安全等方面的優(yōu)化點。并且考慮異構(gòu)計算芯片在微架構(gòu)層面的不同特征,研究其對云上業(yè)務(wù)的最佳配置和匹配,最大限度優(yōu)化資源使用。