華為云計算 云知識 華為云Stack全鏈路故障診斷與分析平臺
華為云Stack全鏈路故障診斷與分析平臺

網(wǎng)絡(luò)作為 云計算 的核心支柱之一,經(jīng)歷了從傳統(tǒng)設(shè)備到虛擬化設(shè)備的演進歷程,從物理網(wǎng)絡(luò)延伸到更為靈活的云網(wǎng)絡(luò)。云網(wǎng)絡(luò)的網(wǎng)絡(luò)范圍又從傳統(tǒng)的物理網(wǎng)絡(luò),延伸到了邏輯網(wǎng)絡(luò)、虛擬網(wǎng)絡(luò)。

在云網(wǎng)絡(luò)中,邏輯網(wǎng)絡(luò)為用戶提供可配置的網(wǎng)絡(luò)服務,邏輯網(wǎng)絡(luò)中常見的元素有虛擬機、子網(wǎng)、安全組、VPC、EIP等網(wǎng)絡(luò)服務;虛擬網(wǎng)絡(luò)主要由各類軟網(wǎng)元組成,如虛擬交換機、虛擬路由器、虛擬防火墻等虛擬網(wǎng)絡(luò)設(shè)備。云網(wǎng)絡(luò)整體架構(gòu)通常分為Overlay和Underlay兩層,虛擬網(wǎng)絡(luò)主要承載Overlay層,物理網(wǎng)絡(luò)主要承載云網(wǎng)絡(luò)中的Underlay層。

當前,云網(wǎng)絡(luò)面臨場景多、流量復雜、軟硬融合和云網(wǎng)協(xié)同場景定界難等問題。云網(wǎng)絡(luò)運維也面臨著諸多挑戰(zhàn),如網(wǎng)絡(luò)流量路徑不可視、問題定位周期長、對網(wǎng)絡(luò)運維人員的要求不斷提高等。急需一個切實可行的網(wǎng)絡(luò)運維解決方案,來解決以上問題。

華為云Stack 全鏈路故障診斷與分析平臺(簡稱全鏈路),以云網(wǎng)絡(luò)中的邏輯網(wǎng)絡(luò)、虛擬網(wǎng)絡(luò)、物理網(wǎng)絡(luò)作為網(wǎng)絡(luò)故障分析診斷切入點,以三層網(wǎng)絡(luò)路徑拓撲為核心,端到端實現(xiàn)三層網(wǎng)絡(luò)路徑可視化。三層網(wǎng)絡(luò)路徑之間通過映射規(guī)則,互相關(guān)聯(lián),動態(tài)映射,對三層網(wǎng)絡(luò)運維進行整合,實現(xiàn)了三層網(wǎng)絡(luò)統(tǒng)一可視、統(tǒng)一運維,解決了三層網(wǎng)絡(luò)鏈路相互割裂,獨立運維的弊端。

一、基于靜態(tài)網(wǎng)絡(luò)配置的邏輯網(wǎng)絡(luò)仿真驗證

邏輯網(wǎng)絡(luò)仿真對網(wǎng)絡(luò)服務進行統(tǒng)一建模和輕量級協(xié)議仿真,形成網(wǎng)絡(luò)模型、使用轉(zhuǎn)發(fā)模型映射出實際的網(wǎng)絡(luò)結(jié)構(gòu)?;谶壿嬀W(wǎng)絡(luò)仿真驗證,對租戶網(wǎng)絡(luò)配置進行檢查和核對。一方面,可以檢查源IP和目的IP之間的路徑連通性;第二方面,可以發(fā)現(xiàn)由于網(wǎng)絡(luò)配置錯誤導致的連接異常問題;第三方面,還能夠還原源IP與目的IP之間的邏輯網(wǎng)絡(luò)路徑信息,如圖展示了源IP與目的IP之間存在的邏輯網(wǎng)絡(luò)服務。

圖1 邏輯網(wǎng)絡(luò)路徑展示例子!.png

邏輯網(wǎng)絡(luò)路徑展示

二、邏輯網(wǎng)絡(luò)到虛擬網(wǎng)絡(luò)路徑映射

邏輯網(wǎng)絡(luò)路徑展示了源IP和目的IP之間的網(wǎng)路服務,不同的網(wǎng)絡(luò)服務對應了虛擬網(wǎng)絡(luò)中特定的實現(xiàn)載體。即邏輯網(wǎng)絡(luò)路徑可以通過特定的映射規(guī)則動態(tài)轉(zhuǎn)換得到虛擬網(wǎng)絡(luò)路徑。映射規(guī)則全局具有唯一性,不同流量場景中的一個或者多個邏輯網(wǎng)絡(luò)路徑節(jié)點,只要匹配了某條映射規(guī)則,則都映射成同一類型的虛擬網(wǎng)絡(luò)節(jié)點。新增網(wǎng)絡(luò)服務后,若現(xiàn)有的映射規(guī)則不能實現(xiàn)正確的映射,只需要增加新的映射規(guī)則即可,在設(shè)計上滿足面向擴展開放。如下圖所示,邏輯網(wǎng)絡(luò)路徑通過映射規(guī)則計算出對應的虛擬網(wǎng)絡(luò),圖中的控制面即為邏輯網(wǎng)絡(luò)路徑。

圖2 邏輯網(wǎng)絡(luò)路徑到虛擬網(wǎng)絡(luò)路徑的映射舉例!.png

邏輯網(wǎng)絡(luò)路徑到虛擬網(wǎng)絡(luò)路徑的映射舉例

三、基于虛擬網(wǎng)絡(luò)路徑的數(shù)據(jù)面撥測

撥測是一種探測網(wǎng)絡(luò)路徑連通性和鏈路質(zhì)量的測量手段。對指定虛擬網(wǎng)絡(luò)路徑進行撥測,也就是向撥測路徑的起始節(jié)點注入指定數(shù)量的染色撥測報文,對于中間節(jié)點只需要關(guān)注撥測報文的數(shù)量和TTL順序是否跟預期的一致,就能判斷撥測報文是否經(jīng)過指定的虛擬網(wǎng)絡(luò)路徑。該種撥測方法可以不區(qū)分流量類型,不感知流量類型的組合,實現(xiàn)一次開發(fā),支持所有組合場景和復雜場景的撥測。

在軟硬融合、云網(wǎng)協(xié)同場景中,為了追求網(wǎng)關(guān)的高性能、低時延,頻繁的使用硬件交換機作為高性能云網(wǎng)關(guān),如華為云Stack L3gw、L2br、裸機高性能網(wǎng)關(guān)等場景。在虛擬網(wǎng)絡(luò)路徑中,若硬件交換機網(wǎng)關(guān)作為撥測起點或撥測終點,為實現(xiàn)雙向撥測,則需要向硬件交換機注入撥測報文的能力。

針對硬件交換機網(wǎng)關(guān)撥測全鏈路有自己的解決之道。首先,硬件交換機與運維程序宿主機建立通信隧道,撥測控制器把撥測報文通過該隧道發(fā)送到硬件交換機上。其次,交換機需要支持基礎(chǔ)的報文 鏡像 功能,用于把撥測報文鏡像到撥測分析器;最后,在交換機網(wǎng)關(guān)上配置出云方向撥測報文丟棄策略,防止撥測報文影響用戶業(yè)務。

若硬件交換機網(wǎng)關(guān)作為撥測起點,則撥測控制器向硬件交換機網(wǎng)關(guān)注入撥測報文,發(fā)起撥測;若硬件交換機網(wǎng)關(guān)作為撥測終點,則撥測分析器收到硬件交換機網(wǎng)關(guān)的上行撥測報文后,向硬件交換機網(wǎng)關(guān)注入回程撥測報文,以完成雙向撥測。

硬件交換機撥測原理圖

四、物理網(wǎng)絡(luò)路徑展示

探測撥測報文經(jīng)過的物理交換機,依然可以利用交換機的報文鏡像功能這一殺手锏。Underlay層所有交換機開啟報文鏡像功能,若撥測報文經(jīng)過交換機,即可把撥測報文鏡像到撥測分析器,撥測分析器綜合對虛擬網(wǎng)絡(luò)路徑和交換機鏡像的撥測報文TTL等信息進行整合分析,還原出撥測報文經(jīng)過的物理網(wǎng)絡(luò)路徑。

虛擬網(wǎng)絡(luò)路徑中的網(wǎng)元節(jié)點映射到物理網(wǎng)絡(luò)路徑中的網(wǎng)元宿主機,即網(wǎng)絡(luò)節(jié)點。物理網(wǎng)絡(luò)路徑可以直觀展示兩個網(wǎng)元節(jié)點之間的物理網(wǎng)絡(luò)設(shè)備信息。下圖展示了源IP和目的IP之間的物理網(wǎng)絡(luò)設(shè)備,圖中可以看到計算節(jié)點和網(wǎng)絡(luò)節(jié)點之間經(jīng)過的交換機設(shè)備。

圖4 物理網(wǎng)絡(luò)路徑展示例子!.png

物理網(wǎng)絡(luò)路徑展示例子

架構(gòu)簡介

全鏈路故障診斷與分析平臺的系統(tǒng)架構(gòu)如圖所示。

全鏈路系統(tǒng)架構(gòu)

 

  • 全鏈路展示UI:提供全鏈路任務創(chuàng)建,任務展示等操作入口,三層網(wǎng)絡(luò)鏈路界面展示,故障診斷信息界面展示。
  • 任務管理:生成撥測任務,下發(fā)撥測任務到撥測節(jié)點。
  • 三層網(wǎng)絡(luò)路徑還原:分析撥測任務五元組信息,拉取相關(guān)的靜態(tài)網(wǎng)絡(luò)資源配置,仿真驗證,還原邏輯網(wǎng)絡(luò)路徑;邏輯網(wǎng)絡(luò)路徑映射到虛擬網(wǎng)路路徑,指定虛擬網(wǎng)絡(luò)路徑撥測;虛擬網(wǎng)元節(jié)點映射到網(wǎng)元宿主機,物理網(wǎng)絡(luò)路徑還原,物理設(shè)備詳細信息補全。
  • 撥測結(jié)果分析:分析撥測Agent和物理交換機鏡像的撥測報文,統(tǒng)計虛擬網(wǎng)絡(luò)節(jié)點的丟包率、時延。
  • 對外API: API用于前端界面調(diào)用或者第三方系統(tǒng)調(diào)用。
  • 撥測Agent: 注入染色撥測報文,鏡像撥測報文到撥測結(jié)果分析模塊。需要在所有的計算節(jié)點和網(wǎng)元節(jié)點部署。
  • 報文鏡像功能: 物理交換機的基礎(chǔ)能力,開啟后可以把染色的撥測報文鏡像到撥測結(jié)果分析模塊。

 

全鏈路設(shè)計關(guān)鍵點

一、三層網(wǎng)絡(luò)路徑統(tǒng)一展示

全鏈路使云網(wǎng)絡(luò)中邏輯網(wǎng)絡(luò)路徑、虛擬網(wǎng)絡(luò)路徑、物理網(wǎng)絡(luò)路徑,三層網(wǎng)絡(luò)端到端的路徑實現(xiàn)可視化。三層網(wǎng)絡(luò)路徑網(wǎng)絡(luò)資源覆蓋全面,展示了源IP和目的IP之間的所有關(guān)鍵資源信息,包括邏輯網(wǎng)絡(luò)客戶的網(wǎng)絡(luò)服務配置,虛擬網(wǎng)絡(luò)和物理網(wǎng)絡(luò)節(jié)點信息。三層網(wǎng)絡(luò)層層映射,網(wǎng)絡(luò)資源的關(guān)聯(lián)關(guān)系一目了然。

三層網(wǎng)絡(luò)路徑展示例子

二、基于三層網(wǎng)絡(luò)路徑,實現(xiàn)高效故障診斷

全鏈路具有網(wǎng)絡(luò)故障診斷定位手段多樣化、故障診斷效率高的特點。

全鏈路故障診斷集成了控制面仿真,數(shù)據(jù)面撥測和客戶網(wǎng)絡(luò)抓包、物理流分析等網(wǎng)絡(luò)故障定位手段,可以實現(xiàn)云網(wǎng)絡(luò)故障分鐘級定界定位,根因排查建議集成了豐富的專家經(jīng)驗。從出錯概率高的控制面入手排查,優(yōu)先檢查關(guān)鍵的虛擬網(wǎng)關(guān),再檢查物理交換機,發(fā)現(xiàn)問題更快速。

全鏈路故障診斷路由表缺失案例

全鏈路故障診斷硬件交換機網(wǎng)關(guān)路由丟失案例

三、簡單易用

對于使用全鏈路的用戶來說,只需要知道需要探測的源IP和目的IP,選擇撥測協(xié)議類型,如果選擇TCP和UDP協(xié)議,用戶還需要輸入源端口和目的端口。用戶不需要學習復雜的網(wǎng)絡(luò)知識,即可使用全鏈路進行網(wǎng)絡(luò)運維,非常的簡單和易用。

全鏈路創(chuàng)建撥測任務界面

用戶創(chuàng)建全鏈路撥測任務后,在任務展示頁面可以看到任務信息。狀態(tài)字段可以展示每一層網(wǎng)絡(luò)路徑的執(zhí)行狀態(tài)信息,如虛擬網(wǎng)絡(luò)路徑相關(guān)狀態(tài)包括:虛擬網(wǎng)絡(luò)任務執(zhí)行中、虛擬網(wǎng)絡(luò)任務執(zhí)行成功、虛擬網(wǎng)絡(luò)任務執(zhí)行失敗。流量類型字段顯示源IP和目的IP之間關(guān)聯(lián)的所有網(wǎng)絡(luò)服務。

全鏈路任務列表

 

華為云Stack全鏈路故障診斷與分析平臺為客戶提供簡單易用的交互界面,用戶輸入探測五元組,即可快速還原邏輯網(wǎng)絡(luò)、虛擬網(wǎng)絡(luò)、物理網(wǎng)絡(luò)路徑,為客戶展示端到端的三層可視化流量路徑。三層網(wǎng)絡(luò)鏈路展示具有網(wǎng)絡(luò)資源覆蓋面廣、定位手段多樣化、故障診斷效率高的特點,可以有效提升產(chǎn)品的網(wǎng)絡(luò)運維競爭力,降低對網(wǎng)絡(luò)運維人員的專業(yè)性要求,提升網(wǎng)絡(luò)故障定位效率,實現(xiàn)網(wǎng)絡(luò)故障分鐘級定界。


 
華為云Stack
華為云Stack是部署在政企客戶本地數(shù)據(jù)中心的云基礎(chǔ)設(shè)施,通過持續(xù)創(chuàng)新,打造安全、可靠、高效的混合云,以用戶視角一朵云的能力,助力客戶從業(yè)務上云邁向深度用云,釋放數(shù)字生產(chǎn)力。