前言:想要寫出一篇引人入勝的文章?我們特意為您整理了談電網業務流量監控系統建設范文,希望能給你帶來靈感和參考,敬請閱讀。
隨著電力體制改革的不斷深化,業務管理方式逐漸由傳統的經驗管理轉向基于數據分析的智能化管理。為有效保障電網公司的業務監管工作開展效率,電網大力建設業務流量監控系統,由此為實現智能化管理提供了有效的數據支持。本文基于業務流量監控系統建設內容,對流量采集手段、分析技術等做經驗總結、創新分析,并對未來的業務監控建設方向做了深入分析。隨著各行業信息化的不斷深入,新建信息系統越來越多,同時隨著數據中心網絡規模擴大,承載應用系統越來越豐富,因此對運維精細化要求不斷提高,網絡流量采集分析已成為精細化運維不可或缺的分析手段,通過流量深度分析,能更快實現故障定位、協助優化系統,提升系統運行效率。電網企業迫切需要在信息化建設中加強信息系統的應用管理,通過業務流量監控設備,為業務運行監控系統提供監控數據,實時監控各應用系統運行的狀態以及各個關鍵業務的運行情況,全面了解各業務系統運行情況,保證應用系統有良好的運行狀態。
1流量采集分析的實際應用
現有的信息系統故障診斷由于缺乏有效的數據支持,時間往往被耗費在無序的排查工作中,其中的主要問題在于:一旦發生問題,多部門同時開始根據各自經驗診斷;缺乏統一視角的證據支持,沒有入手點;若無法達成共識,則需要進一步線索進行反復排查。通過對業務流量數據的采集,提供網絡性能、端到端業務性能等指標,將業務運行監控系統采集到的指標,輸出到信息安全運行監測預警系統,以實現預警系統的全面覆蓋,同時便于快速發現定位應用性能問題,厘清各部門責任,有針對性的解決問題,減少了問題處理時間,提高了運維部門工作質量和效率。
2采集、分析手段
數據中心的流量采集難度與業務流量所經路徑、采集點數量等息息相關,電網的信息系統建設已深入到各個業務部門,所以其流量采集面臨的挑戰諸多:覆蓋業務流量經過的所有路徑,采集點多,根據不同的需求,還需對采集后的流量進行差異化處理,且重要的一點是,流量的采集不能對運行的業務系統產生影響。電網業務流量采集監控系統建設采用無侵入式流量鏡像采集方式獲取端到端業務流量。本系統部署的數據采集方式為:從業務系統的網臺前端負載均衡部署探針設備,進行流量鏡像采集,業務流量經過交換機的數據包復制到鏡像端口,再由鏡像端口接入探針服務器,探針將采集到的數據分發給分析服務器進行處理,由分析服務器對網絡數據進行實時監測、挖掘分析,并且不影響網絡和業務系統的正常運行。業務監控系統采用網絡旁路方式采集交換機/路由器鏡像出來的流量。被監視業務系統或應用完全感知不到監測系統的存在,系統不向被監控系統發送任何數據,更不會對業務系統造成任何額外的計算資源、帶寬資源及緩存資源的開銷。產品安裝、迭代、升級時不需要重啟業務系統。完全不影響業務系統的性能,更不存在安全隱患問題。產品部署邏輯示意圖如圖1所示。通過交換機的流量鏡像采集,將應用服務器之間的通訊數據抓取出來,并通過對應的協議解碼功能將通訊中的數據解釋出來。將數據寫入分析服務器進行業務分析與重組。系統只需要將探針服務器與交換機對接,分析服務器等監控系統用到的設備都可以通過自組網的方式組網,不對業務網絡產生影響。
3探針采集模塊(圖2)
模塊概述:旁路采集需要監控的網絡數據包,然后根據7層協議規則進行數據包深度解析,獲取七元組信息以及應用層業務相關專屬指標,最后以一定的數據格式發送給Java分析平臺進行業務統計分析,以及進行業務端到端的關聯分析。主要涉及的功能有:數據包捕獲,數據包預處理,數據包解析,解碼數據輸出。數據包捕獲:通過加載dpdk自定義驅動程序采集交換機鏡像過來的網絡數據包,并給每個數據包添加時間戳,然后根據數據包的四元組信息通過對稱hash算法得到hash值,根據hash值將每個數據包同源同宿的均分到各個預處理隊列中,由下一個功能模塊對數據包進行處理分析。應用場景:將數據包從網卡中采集推送給應用程序處理。數據包預處理:從預處理隊列中獲取數據包,對數據包頭進行解析,獲取數據包七元組信息,然后過濾模塊根據過濾配置規則和過濾條件對數據包進行過濾處理,符合過濾條件的數據包根據hash值再次同源同宿的分發給解碼隊列。應用場景:對數據進行清洗,篩選。數據包解析:根據七層協議規則對數據包進行深度解析,獲取mac,ip,port,相關的時間指標以及應用協議中攜帶的業務關聯數據指標,進行業務識別和匹配,進行業務數據標記。應用場景:深度解析數據包內容,獲取數據指標,供上層Java分析平臺分析業務關聯。解碼數據輸出:講解碼后的數據結構字段,一次拼接成字符串流,通過socket或kafka發送給Java分析平臺。應用場景:將解碼后的基礎數據發送給第三方平臺進行二次深度分析關聯。
4系統創新點
(1)無侵入式采集客戶感知探測系統通過交換機流量鏡像采集方式獲取業務系統的端到端業務流量,實現無侵入式采集網絡原始數據,對原有業務系統性能不會產生任何影響。(2)自動適配IT路徑圖的變化傳統部署的IT路徑圖:WEB負載-->web集群->接口匯聚負載->接口匯聚集群->能力中心服務集群->數據庫本系統的IT路徑圖:WEB負載-->web集群->接口匯聚負載->接口匯聚NG服務->接口匯聚容器->能力中心服務容器->數據庫本系統下,接口匯聚負載和接口匯聚容器之間增加了一個NG轉發服務。接口匯聚集群變成接口匯聚容器,能力中心服務集群變成能力中心服務容器。業務流量監控系統能夠根據IP交互和業務資源調用關系,自動適配IT路徑圖的變化。(3)自動適配協議的變化探針能夠根據協議的內容自動識別解碼。(4)IP漂移自動學習發現由于接口匯聚容器和能力中心服務容器的IP隨時可能發生變化(比如重啟,自動擴縮容),業務流量監控系統能夠根據IP交互關系和協議動態識別IP所屬網端,實現IP漂移場景下自動發現新的拓撲圖。
5系統效益
(1)提升系統運行質量針對每天流量探測出現的各類告警進行篩選,形成各類BUG故障單、系統性能故障單等,將該系統的數據與實體流量監測對比,能及時發現考核風險,并及時定位考核問題。(2)提升業務運行質量通過數據采集和分析,發現業務運行異常,提交業務規則類問題故障單,發現業務辦理失敗的問題,提交業務系統進行修復,同時給業務系統的預警和故障問題的定位提供了有力的支持和保障,從源頭減少了用戶投訴。(3)實現實時業務檢測系統通過建模的方式,對于特定類業務操作、業務量等進行檢測,通過該手段發現敏感業務操作,保障了系統數據安全。(4)成本效益本項目創新所帶來的效益不僅包括資本支出方面,也體現在日常運維成本方面。業務流量監控系統降低了業務系統人工運維成本,給業務系統的預警和故障問題的定位提供了有力的支持和保障,從源頭減少了客戶投訴,提升了客戶客戶感知滿意度。(5)業務效益業務流量監控系統有助于推動信息系統平臺的順利上線。通過同時監控新老系統,新系統和老系統同時運行,可以看到兩個系統相同業務的性能指標數據對比,作為新系統是否正常運行的一個重要評價標準。通過部署與實踐,我們不僅解決了現網遺留問題同時也攻克了不少技術難題。為電網全業務系統的主動探測探明了道路、掃除了前進障礙,希望在助推電網企業智能運維aiops方面能做出相應的貢獻,真正實現機器代替人工運維的初衷。同時隨著監控技術的不斷發展,在夯實云平臺監控智能化的基礎上,后續有條件可以進一步開展一系列技術革新探索。數據庫端到端關聯分析:充分挖掘數據庫流量,解碼每筆業務的SQL語句和相應的性能指標,自動學習業務接口和SQL的關聯關系。通過業務資源配置關系,串聯每筆業務的數據庫端到端關系。從而更加精細地定位系統故障到SQL級別,實現SQL的性能統計分析。
作者:林志達 曹小明 葉思斯 張華兵 單位:中國南方電網公司