實踐場景
某電商運維人員在定位分析應(yīng)用、資源及業(yè)務(wù)的實時運行狀況時,發(fā)現(xiàn)系統(tǒng)上報的告警數(shù)量過大,重復(fù)性告警過多,需要從眾多告警中快速及時發(fā)現(xiàn)故障,全面掌握應(yīng)用。
解決方案
AOM通過設(shè)置告警規(guī)則,實時監(jiān)控環(huán)境中主機、組件等資源使用情況。當(dāng)產(chǎn)品自身或外部服務(wù)存在異常情況時,立即觸發(fā)告警。并提供告警降噪功能,支持發(fā)送告警通知前按告警降噪規(guī)則對告警進行處理,處理完成后再發(fā)送通知,幫助用戶快速識別重點問題,避免產(chǎn)生告警風(fēng)暴。
告警降噪功能分為分組、去重、抑制、靜默四部分:
使用分組規(guī)則,您可以從告警中篩選出滿足條件的告警子集,然后按分組條件對告警子集分組,告警觸發(fā)時同組告警會被匯聚在一起發(fā)送一條通知。
使用抑制規(guī)則,您可以抑制或阻止與某些特定告警相關(guān)的其他告警通知。例如:當(dāng)嚴(yán)重級別的告警產(chǎn)生時,可以抑制與其相關(guān)的低級別的告警?;虍?dāng)節(jié)點故障發(fā)生時,抑制節(jié)點上的進程或者容器的所有其他告警。
使用靜默規(guī)則,您可以在指定時間段屏蔽告警通知,靜默規(guī)則一旦創(chuàng)建完成,即刻生效。
去重為內(nèi)置策略,服務(wù)后臺會自動檢驗告警內(nèi)容是否一致實現(xiàn)去重的效果,用戶無需手動創(chuàng)建規(guī)則。
下面以監(jiān)控ELB業(yè)務(wù)層全量指標(biāo)為例說明。
步驟一:創(chuàng)建分組規(guī)則
建一個分組規(guī)則,當(dāng)產(chǎn)生AOM的緊急、重要告警時,觸發(fā)“Monitor_host”行動規(guī)則,且告警按照告警源合并分組。
登錄AOM 2.0控制臺。
在菜單欄選擇“監(jiān)控中心”,進入“監(jiān)控中心”界面。
在左側(cè)導(dǎo)航欄中選擇“告警管理 > 告警降噪”。
在“分組規(guī)則”頁簽下單擊 “創(chuàng)建分組規(guī)則”,設(shè)置規(guī)則名稱、分組條件等信息。
表1 告警合并規(guī)則說明
|
方式
|
說明
|
|---|---|
通知合并方式 |
根據(jù)指定字段對分組后的告警合并 。合并在一組的告警會被匯聚在一起發(fā)送一條通知。 合并方式包括: 按告警源:由相同告警源觸發(fā)的告警,合并為一組發(fā)送告警通知。 按告警源 + 嚴(yán)重度:由相同告警源觸發(fā)的告警,且其嚴(yán)重度相同時,合并為一組發(fā)送告警通知。 按告警源 + 所有標(biāo)簽:由相同告警源觸發(fā)的告警,且其標(biāo)簽相同時,合并為一組發(fā)送告警通知。 |
首次等待 |
首次創(chuàng)建告警合并集合后,等待多久發(fā)送第一次告警通知。通常設(shè)置為秒級別的時間,便于告警合并后再發(fā)送,避免告警風(fēng)暴。 取值范圍:0s-10min,推薦設(shè)置為 15s。 |
變化等待 |
合并集合內(nèi)的告警數(shù)據(jù)發(fā)生變化后,等待多久發(fā)送告警通知。通常設(shè)置為分鐘級別的時間。如果您需要盡快收到告警通知,也可設(shè)置為秒級時間。 此處的變化是指新增告警或告警狀態(tài)改變。 取值范圍:5s-30min,推薦設(shè)置為60s。 |
重復(fù)等待 |
合并集合內(nèi)的告警數(shù)據(jù)重復(fù)后,等待多久發(fā)送告警通知。通常設(shè)置為小時級別的時間。 此處的重復(fù)是指無新增告警和狀態(tài)變化,僅其他屬性(例如標(biāo)題、內(nèi)容等)改變。 取值范圍:0min-15day,推薦設(shè)置為1h。 |
步驟二:創(chuàng)建全量指標(biāo)告警規(guī)則
通過指標(biāo)告警規(guī)則可對資源的指標(biāo)設(shè)置閾值條件。當(dāng)指標(biāo)數(shù)據(jù)滿足閾值條件時產(chǎn)生閾值告警,當(dāng)沒有指標(biāo)數(shù)據(jù)上報時產(chǎn)生數(shù)據(jù)不足事件。
按照配置方式的不同,創(chuàng)建指標(biāo)告警規(guī)則可分為三種:按資源類型創(chuàng)建、按全量指標(biāo)創(chuàng)建和按Prometheus命令創(chuàng)建。下面的操作以按全量指標(biāo)創(chuàng)建為例說明,創(chuàng)建一個監(jiān)控ELB業(yè)務(wù)層全量指標(biāo)的告警規(guī)則。
說明:如果需要將上報的告警數(shù)據(jù)在應(yīng)用監(jiān)控頁頁面顯示,則創(chuàng)建指標(biāo)告警規(guī)則時,只能選擇按全量指標(biāo)創(chuàng)建。
1、登錄AOM 2.0控制臺。
2、在菜單欄選擇“監(jiān)控中心”,進入“監(jiān)控中心”界面。
3、在左側(cè)導(dǎo)航欄中選擇“告警管理 > 告警規(guī)則”。
4、在“規(guī)則列表”頁簽下單擊 “創(chuàng)建告警規(guī)則”。
5、設(shè)置告警規(guī)則的規(guī)則名稱等基本信息。
6、設(shè)置告警規(guī)則的詳細(xì)信息
7、設(shè)置告警通知策略。告警通知策略有兩種方式,此處選擇告警降噪方式。
告警降噪:對告警信息自動匹配告警降噪分組規(guī)則后再發(fā)送告警,防止產(chǎn)生告警風(fēng)暴。
8、單擊“立即創(chuàng)建”,完成創(chuàng)建。創(chuàng)建完成后,單擊“返回告警規(guī)則列表”可查看已創(chuàng)建的告警規(guī)則。