五月婷婷丁香性爱|j久久一级免费片|久久美女福利视频|中文观看在线观看|加勒比四区三区二|亚洲裸女视频网站|超碰97AV在线69网站免费观看|有码在线免费视频|久久青青日本视频|亚洲国产AAAA

實踐場景

某電商運維人員在定位分析應(yīng)用、資源及業(yè)務(wù)的實時運行狀況時,發(fā)現(xiàn)系統(tǒng)上報的告警數(shù)量過大,重復(fù)性告警過多,需要從眾多告警中快速及時發(fā)現(xiàn)故障,全面掌握應(yīng)用。

解決方案

AOM通過設(shè)置告警規(guī)則,實時監(jiān)控環(huán)境中主機、組件等資源使用情況。當(dāng)產(chǎn)品自身或外部服務(wù)存在異常情況時,立即觸發(fā)告警。并提供告警降噪功能,支持發(fā)送告警通知前按告警降噪規(guī)則對告警進行處理,處理完成后再發(fā)送通知,幫助用戶快速識別重點問題,避免產(chǎn)生告警風(fēng)暴。

告警降噪功能分為分組、去重、抑制、靜默四部分:

使用分組規(guī)則,您可以從告警中篩選出滿足條件的告警子集,然后按分組條件對告警子集分組,告警觸發(fā)時同組告警會被匯聚在一起發(fā)送一條通知。

使用抑制規(guī)則,您可以抑制或阻止與某些特定告警相關(guān)的其他告警通知。例如:當(dāng)嚴(yán)重級別的告警產(chǎn)生時,可以抑制與其相關(guān)的低級別的告警?;虍?dāng)節(jié)點故障發(fā)生時,抑制節(jié)點上的進程或者容器的所有其他告警。

使用靜默規(guī)則,您可以在指定時間段屏蔽告警通知,靜默規(guī)則一旦創(chuàng)建完成,即刻生效。

去重為內(nèi)置策略,服務(wù)后臺會自動檢驗告警內(nèi)容是否一致實現(xiàn)去重的效果,用戶無需手動創(chuàng)建規(guī)則。

下面以監(jiān)控ELB業(yè)務(wù)層全量指標(biāo)為例說明。

步驟一:創(chuàng)建分組規(guī)則

建一個分組規(guī)則,當(dāng)產(chǎn)生AOM的緊急、重要告警時,觸發(fā)“Monitor_host”行動規(guī)則,且告警按照告警源合并分組。

登錄AOM 2.0控制臺。

在菜單欄選擇“監(jiān)控中心”,進入“監(jiān)控中心”界面。

在左側(cè)導(dǎo)航欄中選擇“告警管理 > 告警降噪”。

在“分組規(guī)則”頁簽下單擊 “創(chuàng)建分組規(guī)則”,設(shè)置規(guī)則名稱、分組條件等信息。

表1 告警合并規(guī)則說明

方式
說明

通知合并方式

根據(jù)指定字段對分組后的告警合并 。合并在一組的告警會被匯聚在一起發(fā)送一條通知。

合并方式包括:

按告警源:由相同告警源觸發(fā)的告警,合并為一組發(fā)送告警通知。

按告警源 + 嚴(yán)重度:由相同告警源觸發(fā)的告警,且其嚴(yán)重度相同時,合并為一組發(fā)送告警通知。

按告警源 + 所有標(biāo)簽:由相同告警源觸發(fā)的告警,且其標(biāo)簽相同時,合并為一組發(fā)送告警通知。

首次等待

首次創(chuàng)建告警合并集合后,等待多久發(fā)送第一次告警通知。通常設(shè)置為秒級別的時間,便于告警合并后再發(fā)送,避免告警風(fēng)暴。

取值范圍:0s-10min,推薦設(shè)置為 15s。

變化等待

合并集合內(nèi)的告警數(shù)據(jù)發(fā)生變化后,等待多久發(fā)送告警通知。通常設(shè)置為分鐘級別的時間。如果您需要盡快收到告警通知,也可設(shè)置為秒級時間。

此處的變化是指新增告警或告警狀態(tài)改變。

取值范圍:5s-30min,推薦設(shè)置為60s。

重復(fù)等待

合并集合內(nèi)的告警數(shù)據(jù)重復(fù)后,等待多久發(fā)送告警通知。通常設(shè)置為小時級別的時間。

此處的重復(fù)是指無新增告警和狀態(tài)變化,僅其他屬性(例如標(biāo)題、內(nèi)容等)改變。

取值范圍:0min-15day,推薦設(shè)置為1h。

步驟二:創(chuàng)建全量指標(biāo)告警規(guī)則

通過指標(biāo)告警規(guī)則可對資源的指標(biāo)設(shè)置閾值條件。當(dāng)指標(biāo)數(shù)據(jù)滿足閾值條件時產(chǎn)生閾值告警,當(dāng)沒有指標(biāo)數(shù)據(jù)上報時產(chǎn)生數(shù)據(jù)不足事件。

按照配置方式的不同,創(chuàng)建指標(biāo)告警規(guī)則可分為三種:按資源類型創(chuàng)建、按全量指標(biāo)創(chuàng)建和按Prometheus命令創(chuàng)建。下面的操作以按全量指標(biāo)創(chuàng)建為例說明,創(chuàng)建一個監(jiān)控ELB業(yè)務(wù)層全量指標(biāo)的告警規(guī)則。

說明:如果需要將上報的告警數(shù)據(jù)在應(yīng)用監(jiān)控頁頁面顯示,則創(chuàng)建指標(biāo)告警規(guī)則時,只能選擇按全量指標(biāo)創(chuàng)建。

1、登錄AOM 2.0控制臺。

2、在菜單欄選擇“監(jiān)控中心”,進入“監(jiān)控中心”界面。

3、在左側(cè)導(dǎo)航欄中選擇“告警管理 > 告警規(guī)則”。

4、在“規(guī)則列表”頁簽下單擊 “創(chuàng)建告警規(guī)則”。

5、設(shè)置告警規(guī)則的規(guī)則名稱等基本信息。

6、設(shè)置告警規(guī)則的詳細(xì)信息

7、設(shè)置告警通知策略。告警通知策略有兩種方式,此處選擇告警降噪方式。

告警降噪:對告警信息自動匹配告警降噪分組規(guī)則后再發(fā)送告警,防止產(chǎn)生告警風(fēng)暴。

8、單擊“立即創(chuàng)建”,完成創(chuàng)建。創(chuàng)建完成后,單擊“返回告警規(guī)則列表”可查看已創(chuàng)建的告警規(guī)則。

應(yīng)用運維管理AOM 常見問題

應(yīng)用運維管理AOM 常見問題

  • 如何處理界面“ICAgent狀態(tài)”為“離線”的問題?

    ICAgent安裝完成后,界面“ICAgent狀態(tài)”為“離線”。

    問題分析

    原因:AK/SK配置不正確或30200、30201端口未連通。

    影響:ICAgent無法正常使用。

    解決辦法

    以root用戶登錄安裝ICAgent的服務(wù)器。

    執(zhí)行以下命令,檢查AK/SK配置是否正確。

    配置AK/SK后,重新安裝ICAgent。如果仍未安裝成功,請執(zhí)行4。

    查詢端口連通性。


  • Agent安裝失敗相關(guān)類

    Agent安裝機和目標(biāo)機器網(wǎng)絡(luò)不通,報錯提示“[warn] ssh connect failed, 1.2.1.2:22”如何解決?

    答:安裝之前先在安裝頁面單擊連接測試,選擇網(wǎng)絡(luò)能通的安裝機。

    Agent安裝成功后,后續(xù)的心跳和注冊都失敗,代理機網(wǎng)絡(luò)不通,如何解決?

    答:在目標(biāo)機器上執(zhí)行“telnet 代理機ip”,檢查代理機和目標(biāo)機器間的網(wǎng)絡(luò)連通性。


  • 編排好的作業(yè),能否在執(zhí)行時再選擇執(zhí)行機,填入腳本參數(shù)等內(nèi)容?

    在創(chuàng)建作業(yè)時,如需在每次執(zhí)行作業(yè)時填入腳本參數(shù),確認(rèn)執(zhí)行目標(biāo)實例等,則需要配置全局參數(shù),并在作業(yè)步驟中引用。

    操作步驟

    1、登錄AOM 2.0控制臺,在菜單欄單擊“自動化運維”,進入“自動化運維”界面。

    2、在左側(cè)導(dǎo)航欄中選擇“作業(yè)管理”,單擊右上角的“新建作業(yè)”。

    設(shè)置“添加全局參數(shù)”,創(chuàng)建參數(shù)類型為“字符串”的參數(shù) param1, 創(chuàng)建參數(shù)類型為“主機列表”的參數(shù)param2,并保存。

    3、創(chuàng)建作業(yè)步驟,如創(chuàng)建腳本執(zhí)行步驟時,可在“腳本參數(shù)”中通過 ${param1} 引用字符串參數(shù),可在選擇“目標(biāo)實例”時選擇“全局參數(shù)”,并通過下拉框選擇 param2,保存作業(yè)步驟即可生效。

    4、作業(yè)創(chuàng)建完成后,可以在每次執(zhí)行時填入 param1 的值,并選擇執(zhí)行目標(biāo)實例,即確定 param2 的值。