當前位置: 華文世界 > 科技

國家電網某地電力公司網路硬體綜合監控運維計畫

2024-05-07科技

國家電網某地電力公司是國家電網有限公司的子公司,負責當地電網規劃、建設、營運和供電服務,下屬多家地市供電企業和檢修公司、資訊通訊公司等業務支撐實施機構。

計畫現狀

隨著公司資訊化建設加速,其資訊內網中存在大量物理伺服器、儲存裝置、光纖交換機等裝置,缺少監控裝置細顆粒度部件狀態的運維工具,無法滿足實際運維需求。

裝置型別: 儲存裝置、伺服器、光纖交換機、交換機等

裝置品牌: 華為、pC、浪潮、惠普、IBM、中興、聯想、DELL、曙光、南瑞、神州鯤泰、超融合、沃趣、長城超雲、Brocade、MELLANOX、貝爾、銳捷等

裝置數量: 2000+台

計畫期望:

  • 將網路內近200種不同品牌、不同型號、不同型別的裝置統一、集中監控;

  • 提供詳細的、粒度細裝置監控指標庫,支持監控的指標包括但不限於:CPU、記憶體、磁盤、網口、溫度等;

  • 能夠即時監控裝置的執行數據,快速判斷出硬體部件故障位置與級別,提供高效的故障排查和處理手段;

  • 解決裝置產生的事件和日誌資訊格式多樣、復雜不一致的問題,可以對其進行集中管理,並轉化為清晰易於理解的告警資訊;

  • 具有多種可供選擇的告警通知方式,包括但不限於信件、簡訊、微信等;

  • 解決目前主要依賴人工巡檢,造成的巡檢頻度低,人力耗費大的問題;

  • 解決不同型別裝置配置復雜和裝置配置工作量大的問題,能夠對裝置的配置檔進行管理;

  • 能夠與SG-I6000裝置狀態評價模組進行對接。

  • 智和信通方案

    經過與使用者一線運維工程師的深入交流,智和信通充分明確了其對監控運維平台的核心需求,並透過對其日常運維工作的分析提供出針對性的解決方案。

    海量異構裝置統一納管

    內建大量不同型別、不同品牌型號裝置監控模型,透過多維度監控裝置,獲取網路最新執行狀態。監控指標涵蓋線上狀態、Ping、CPU、記憶體、網路介面、磁盤、行程、電源、風扇、溫度等各方面。且不同型別和套用場景下的裝置具備差異監控資源和監視指標,在裝置統一納管的情況下,實作差異化故障告警。

    提供裝置、資源、裝置間連線關系自動化發現繪制能力,以圖形方式實作裝置、資源、鏈路狀態的直觀展示,為裝置部件故障的即時發現和有效處理提供便利。

    靈活可配的裝置、資源、監視任務模型庫

    支持自訂配置裝置型別、裝置資源模型和故障監視器、效能監視器監視任務等模型,實作對電力公司內部覆蓋儲存裝置、伺服器、光纖交換機、交換機等裝置型別,華為、pC、浪潮、惠普、IBM、中興、聯想、DELL、曙光、南瑞、神州鯤泰、超融合、沃趣、長城超雲、Brocade、MELLANOX、貝爾、銳捷等裝置品牌的近200個品牌型號的監控支持。

    全面監控裝置效能,感知網路執行態勢

    全面采集網路記憶體儲、伺服器、光纖交換機、交換機等裝置的效能資訊,按照時間、資源、效能型別等多種維度,圖形、表格等多種形式進行即時效能和歷史效能的展示。並透過智慧演算法分析歷史數據,對磁盤容量、交換機埠容量、機房機櫃容量進行展示和預測分析,並根據容量可使用時間進行自訂預警。

    多種告警機制,可自訂告警閾值

    支持多種告警機制,自訂配置告警閾值,從眾多的事件、日誌和狀態資訊中分析提煉異常數據並轉化為告警。第一時間獲取準確的告警資訊,快速標示已執行操作的告警,迅速定位告警裝置。

    智慧告警降噪,快速定位故障根因

    采用自動去重、風暴抑制、關聯聚合、維護期時間遮蔽、依賴遮蔽等多種智慧告警降噪機制,對各類告警進行自動壓縮收斂,減少無效告警,一步定位發生故障的源頭裝置。快速檢索異常問題關聯涉及的各項維度與影響範圍,快速定位問題邊界,直達故障根因。

    多種告警通知途徑結合故障自愈能力,實作快速排障

    透過故障閾值的設定,在故障真正到來前,提前觸發通知機制,三級逐步預警。告警發生中,自動關聯調取內建的故障處置預案,配合告警自愈及自動派單能力,快速實作排障處置;在故障消失後,系統能自動檢測到先前故障,並做自動清除告警處理。

    提供界面顏色、提示聲、光效閃爍、資訊列表、Email、簡訊、釘釘、企業微信、個人微信等多種通知渠道。

    匹配真實運維場景的自動化巡檢

    可自訂巡檢策略對裝置的執行情況進行統計和報表生成,並可預設時間巡檢策略執行時間,進行自動化巡檢,可向指定信箱發送巡檢結果報告。透過平台內人工觸發或定時觸發的方式,將巡檢工作托管至平台自動執行,解放人力,實作對裝置的定期快速檢查。

    裝置配置檔備份、對比、恢復

    定期自動對裝置策略進行巡檢備份,可線上檢視、下載保留或透過本次執行結果與上次執行結果或基線檔的對比,當配置出現異常時進行自動告警,並可結合故障自愈能力,自動回滾到信任的版本。

    全網 IT 資產統一管理

    提供網路內IT裝置一鍵同步資產資料庫的功能,快速同步拓撲內的監控裝置,並對其進行資產生命周期管理。以圖譜的方式呈現資產與其他資產、配品配件、網路鏈路、使用人等靜態關聯關系。

    對接 I6000 系統,即時推播告警與裝置狀態數據

    方案實作與I6000系統的對接,將裝置的異常告警資訊集中儲存,統一分析處理,轉化為I6000可辨識的、符合國網要求的標準格式。透過裝置資訊同步功能,將裝置資產、監控資訊快速同步至I6000,豐富I6000內關於裝置的效能、告警、基本資訊等內容。

    套用價值

    透過部署智和信通綜合監控運維方案,7*24小時即時監控全網裝置,獲取IT裝置的狀態資訊,真正滿足使用者硬體資源精細化監控需求。

    透過精細化監控裝置的各項硬體指標,即時了解裝置的執行狀態和負載情況,及時發現硬體元件可能出現的效能瓶頸和故障,不但為裝置配置調整和最佳化提供數據支撐,而且提前預警裝置可能出現的故障,以便運維人員有充足的時間準備排障操作。同時,在故障出現後快速診斷故障產生的根本原因,提升排障效率,減少因裝置故障帶來的業務中斷和損失。

    在整體運維工作中透過智和信通綜合監控運維方案自動采集、儲存、分析裝置狀態數據,透過裝置遠端控制和自動化編排運維的能力,對裝置進行遠端調控和維護,快速提高工作效率的同時,降低IT運維成本,保障電力資訊系統穩定、高效執行。