GaussDB告警事件列表
事件名稱
事件ID
事件級別
事件說明
處理建議
事件影響
進程狀態(tài)告警
ProcessStatusAlarm
重要
GaussDB關鍵進程退出,包括:CMS/CMA、ETCD、GTM、CN、DN。
等待進程自動恢復或者自動主備切換,觀察業(yè)務是否恢復。如果業(yè)務未恢復,聯系SRE。
主機進程故障,在主機上進行的業(yè)務將中斷回滾。備機進程故障不影響業(yè)務。
組件狀態(tài)告警
ComponentStatusAlarm
重要
GaussDB關鍵組件無響應,包括:CMA、ETCD、GTM、CN、DN。
等待進程自動恢復或者自動主備切換,觀察業(yè)務是否恢復。如果業(yè)務未恢復,聯系SRE。
主機進程無響應,在主機上進行的業(yè)務將無響應。備機進程故障不影響業(yè)務。
集群狀態(tài)告警
ClusterStatusAlarm
重要
集群狀態(tài)異常,包括:集群只讀、ETCD多數派故障、集群分布不均衡。
聯系SRE。
集群只讀: 業(yè)務只讀。
ETCD多數派故障:集群不可用。
集群分布不均衡:集群性能/可靠性降低。
硬件資源告警
HardwareResourceAlarm
重要
集群中出現嚴重的硬件故障,包括:磁盤損壞、GTM網絡通信故障。
聯系SRE。
業(yè)務部分/全部受損。
狀態(tài)轉換告警
StateTransitionAlarm
重要
集群出現如下重要事件:DN build/build失敗、DN強切、DN主備切換/failover、GTM主備切換/failover。
等待自動恢復,觀察業(yè)務是否恢復。如果業(yè)務未恢復,聯系SRE。
部分業(yè)務受損。
其他異常告警
OtherAbnormalAlarm
重要
磁盤使用閾值告警等。
關注業(yè)務變化,及時計劃擴容。
超過使用閾值,將無法擴容。
實例運行狀態(tài)異常
TaurusInstanceRunningStatusAbnormal
重要
由于災難或者物理機故障導致實例故障時,會上報該事件,屬于關鍵告警事件。
提交工單。
可能導致數據庫服務不可用。
實例運行狀態(tài)異常已恢復
TaurusInstanceRunningStatusRecovered
重要
針對災難性的故障,GaussDB有高可用工具會自動進行恢復或者手動恢復,執(zhí)行完成后會上報該事件。
不需要處理。
無
節(jié)點運行狀態(tài)異常
TaurusNodeRunningStatusAbnormal
重要
由于災難或者物理機故障導致數據庫節(jié)點故障時,會上報該事件,屬于關鍵告警事件。
檢查數據庫服務是否可以正常使用,并提交工單。
可能導致數據庫服務不可用。