五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

云系統(tǒng)中的告警質(zhì)量調(diào)研和告警優(yōu)化策略

本文發(fā)表于DSN2022(CCF-B),作者為楊天益(香港中文大學(xué)博士研究生),相關(guān)工作為華為-港中文聯(lián)合實(shí)驗(yàn)室研究中產(chǎn)出。原文鏈接Characterizing and Mitigating Anti-patterns of Alerts in Industrial Cloud Systems

摘要

告警對(duì)于云系統(tǒng)異常時(shí)人工接入處理的及時(shí)性至關(guān)重要。告警的質(zhì)量會(huì)顯著影響云系統(tǒng)可靠性和云服務(wù)商的業(yè)務(wù)收入。在實(shí)踐中,由于云系統(tǒng)海量的告警數(shù)據(jù)中存在一些沒有信息量的、錯(cuò)誤的、有誤導(dǎo)性的告警,使得oncall的工程師無法快速定位根因和修復(fù)故障。我們將這些無效的告警的稱為“告警的anti-pattern”。為了更好地理告警的anti-pattern,并提供可操作的措施來治理anti-pattern,本文首次對(duì)工業(yè)云系統(tǒng)中治理告警的anti-pattern的實(shí)踐進(jìn)行了實(shí)證研究。我們研究了業(yè)界領(lǐng)先的云服務(wù)商華為云的告警策略和告警處理過程,研究結(jié)合了兩年內(nèi)數(shù)百萬個(gè)告警的定量分析,以及對(duì)18名經(jīng)驗(yàn)豐富的運(yùn)維工程師的調(diào)查。因此,我們總結(jié)了四種單獨(dú)的anti-pattern和兩種集體的anti-pattern。我們還總結(jié)了當(dāng)前治理告警anti-pattern的四種措施,以及告警策略配置的一些建議。最后,我們建議探索告警質(zhì)量(QoA)的自動(dòng)評(píng)估,包括告警的指示性、精度和可操作性作為未來的研究方向,幫助自動(dòng)檢測告警的anti-pattern。我們的研究結(jié)果對(duì)于優(yōu)化云監(jiān)控系統(tǒng)和提高云服務(wù)的可靠性具有重要價(jià)值。

圖片描述

云系統(tǒng)中海量的告警數(shù)據(jù)中存在一些沒有信息量的、錯(cuò)誤的、有誤導(dǎo)性的告警。我們統(tǒng)稱這些問題為告警的反模式(反模式),本文主要是針對(duì)告警的反模式進(jìn)行實(shí)證分析,并針對(duì)實(shí)際告警治理的實(shí)踐給出一些分析和建議。

圖片描述

針對(duì)告警的反模式,本文研究了以下四個(gè)研究問題:

  1. 告警中存在哪些反模式?
  2. 這些反模式是如何影響運(yùn)維診斷告警的?
  3. 目前運(yùn)維人員對(duì)于無效告警的應(yīng)對(duì)方式是什么?
  4. 目前如何避免無效告警?
告警中的反模式
  • 單個(gè)告警產(chǎn)生的反模式

    • 告警描述籠統(tǒng)不清晰,導(dǎo)致運(yùn)維人員無法得到明確的結(jié)論,影響分析
    • 告警嚴(yán)重性不準(zhǔn)確,導(dǎo)致運(yùn)維人員把時(shí)間浪費(fèi)在處理不重要的告警上。而且由于云系統(tǒng)的迭代更新,嚴(yán)重性也會(huì)隨之改變
    • 不合適的/過期的告警生成規(guī)則。比如系統(tǒng)會(huì)對(duì)底層基礎(chǔ)架構(gòu)和上層業(yè)務(wù)都進(jìn)行監(jiān)控并生成告警,雖然底層告警可能是某些故障的根因,但是由于容錯(cuò)機(jī)制的存在,底層的告警一般對(duì)服務(wù)質(zhì)量不會(huì)有太大的影響。
    • 閃斷和震蕩告警。持續(xù)很短時(shí)間,或者反復(fù)在正常和異常直接切換,通常是因?yàn)楦婢呗蕴舾?/li>
  • 告警風(fēng)暴
    • 重復(fù)告警:由相同告警策略生成,比如下圖中haproxy的告警占到了大約30%

圖片描述

一個(gè)告警風(fēng)暴例子中的重復(fù)告警

  • 級(jí)聯(lián)告警:由于模塊依賴和調(diào)用關(guān)系,由告警傳播生成
現(xiàn)有對(duì)反模式的回應(yīng)

當(dāng)告警數(shù)量比較少的時(shí)候,運(yùn)維人員一般會(huì)手工處理每個(gè)告警,但是當(dāng)短時(shí)間內(nèi)生成告警數(shù)量較多的時(shí)候,通常會(huì)有以下幾種方式:

  • 告警屏蔽:對(duì)于噪聲類告警,設(shè)置規(guī)則屏蔽瞬時(shí)告警、反復(fù)切換的告警和重復(fù)告警
  • 告警聚合:對(duì)于非噪聲類告警, 對(duì)告警進(jìn)行聚合
  • 告警相關(guān)性分析:
    • 告警策略的依賴:比如一個(gè)源告警會(huì)出發(fā)生成另一個(gè)告警,運(yùn)維人員會(huì)更關(guān)注源告警
    • 根據(jù)云服務(wù)的拓?fù)溥M(jìn)行相關(guān)性分析
  • 檢測新出現(xiàn)的告警:采用在線LDA的方式。用LDA主題模型,新興告警通常在過去一段時(shí)間沒有出現(xiàn)過,topic表現(xiàn)會(huì)不一樣
防止出現(xiàn)反模式告警
  • 華為云采取了一些告警規(guī)約并且定期對(duì)告警策略進(jìn)行回顧,主要從下面三個(gè)方面來考慮:

    • 監(jiān)控對(duì)象是什么?和服務(wù)質(zhì)量強(qiáng)相關(guān)的數(shù)據(jù)應(yīng)該被監(jiān)控
    • 什么時(shí)候生成告警?
    • 告警的屬性對(duì)診斷是不是有幫助?
  • 如果嚴(yán)格遵守告警規(guī)約,可以有效地減少無效告警,但是是否遵守告警規(guī)約依賴于人工檢查。

未來研究方向
  • 告警質(zhì)量評(píng)估 (QoA) 的幾個(gè)維度
    • 告警的指示性。這個(gè)告警是否可以代表一個(gè)故障
    • 準(zhǔn)確性。告警能否正確反映異常的嚴(yán)重性
    • 可處理性。告警能否被有效地處理,與告警目標(biāo)和告警屬性有關(guān)
  • 未來工作:
    • 結(jié)合人工知識(shí)和機(jī)器學(xué)習(xí)方法從上述三個(gè)角度來評(píng)估告警,比如基于人工知識(shí)來從上面三個(gè)角度給出標(biāo)注,然后采用機(jī)器學(xué)習(xí)模型來學(xué)習(xí),形成閉環(huán)。
    • 對(duì)于以上三個(gè)屬性,可以考慮使用human-in-the-loop的方式訓(xùn)練模型。具體來講,運(yùn)維工程師在處理告警時(shí)對(duì)告警質(zhì)量的三個(gè)維度分別進(jìn)行打分,有了這些分?jǐn)?shù)之后,再使用多模態(tài)學(xué)習(xí)將告警質(zhì)量分?jǐn)?shù)與當(dāng)時(shí)系統(tǒng)的監(jiān)控指標(biāo)進(jìn)行融合學(xué)習(xí),從而得到一個(gè)自動(dòng)化判斷告警質(zhì)量的模型,并在系統(tǒng)運(yùn)行時(shí)不斷優(yōu)化此模型。

圖片描述

(左)嚴(yán)格的告警生成策略

(中)自動(dòng)化告警質(zhì)量檢測,不斷利用人的標(biāo)注訓(xùn)練機(jī)器學(xué)習(xí)模型

(右)對(duì)低質(zhì)量的告警及時(shí)優(yōu)化處理