前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數據分析的方法主題范文,僅供參考,歡迎閱讀并收藏。
環境監測數據可以反映出某一區域內的環境質量狀況、污染物的排放情況以及環境受污染的程度。各項數據的不斷匯總并分析為各級環保主管部門以及相關機構做決策提供了技術依據。因此,采用健全的質量保證體系以及方法來保證數據的分析質量很有必要。首先,我們先來了解監測數據分析的方法。
(一)統計規律分析
就是采用數理統計方法、模糊數學方法以及適用于小同環境要素的數學和物理方程等方法,對所得的監測數據進行深度剖析,做出詳細的分析評價。這種數據分析方法主要適用于環境調查、環境規劃和環評等工作。
(二)合理性分析
實際的環境監測中,影響環境要素變化的因素錯綜復雜,而有效的能用于綜合分析的監測數據十分有限,所以我們需要考慮到各種環境要素之間的相互影響,以及監測項目之間的關系,理論結合實際全面分析數據的合理性,這樣才可能得到準確可靠的、合理的監測數據分析結果。
二、提高環境監測數據分析質量的方法
為了促進環境執法工作的嚴肅和公正,在科學化環境管理政策中,提高環境數據分析質量很有必要。在前人的研究工作基礎之上,我們提出了以下幾種方法來提高數據分析質量。
(一)加強審核
加強各項審核是提高環境監測數據分析質量的重要方法,它主要是指加強對現有數據的綜合審核。在進行例行監測或是年度監測計劃時,我們的工作一般都是連續性的展開的,一年或是好幾年,因此,我們可以建立一個動態的分析數據庫,錄入每次的監測數據,包括每個污染源的詳細信息(污染點的地理位置和排放口的排污狀況等),在以后的審核中,我們可以迅速地在數據審核中對于同一采樣點、同一分析項目進行新舊數據的分析對比。當數據分析結果出現異常時,可以及時的發現并找到原因,這可以對污染應急事故的發生起到提前警示的作用。另外,在數據審核中,也要密切注意到同一水樣、不同的分析項目之間的相關性,比如:同一水體中氟化物和總硬度、色度和pH的關系、氨氮和總氮之間的相關性等,這樣也能及時發現數據分析中出現的誤差。
(二)加強監督機制
通過調研我們發現,目前在傳統的監測數據質量控制系統中依舊存在許多不足,我們可以通過引入反饋和交流機制,加強監督機制來有效提高數據分析的質量。首先,通過強化平面控制,在系統內部全面優化管理的模式,提高工作人員的分析技術水平,盡可能的減少或消除數據誤差,以此來提高監測分析的準確性;其次,我們應該主動接受來自外界的監督,對于外界有異議的監測數據要進行反復的檢測;再次,我們也應該多舉辦技術交流會,讓技術人員可以與各級環境監測部門的人員溝通,學習他們的先進技術和方法,同時進行數據分析結果對比,找到自身的不足,發現問題并能及時更正。
(三)加強采樣及實驗室測量質量的控制
1.采樣控制
工作人員在每次采樣前,都應該根據實際環境情況來制定采樣技術細則,做好采樣控制,比如:需要校準儀器并確保儀器可以正常運轉;使用的采樣管和濾膜要正確安裝,采樣器干凈整潔沒有受到污染源的污染,其放置的位置也能滿足采樣要求等。采集好的樣品,要妥善存放避免污染。如果樣品不能及時進行檢測,考慮到樣品的穩定性,最好將樣品密封并存放在于冰箱中。
2.實驗室測量控制
在實驗室進行樣品測試之前,首先應該對所要用到的玻璃量器及分析測試儀器進行校驗。日常工作中,也應該根據各種儀器保養規定,對儀器定期進行維護和校驗,確保儀器可以正常運轉工作。其次,需要準確調配各種溶液,特別是標準溶液,配置時要使用合格的實驗用蒸餾水。測試數據時,先要測定標準樣品并繪制標準曲線。測定樣品時要檢查相關系數和計算回歸方程,并對實驗系統誤差進行測驗,每一步都不能少。
三、結束語
人們通常把分析學等同于儀表盤報告,但這太死板了,只能粗略地反映你的游戲表現。
這就是為什么行業越來越傾向于使用特定的玩家反饋和可執行的分析結果來指導游戲設計調整。
了解真實的玩家觀點并不容易。對發行商和開發者而言,玩家、平臺和設備類型多樣化導致分析學的數據追蹤成了一大挑戰。
那就是為什么我們最近發表了《Analytics Driven Game Design》白皮書,旨在使這個過程更加簡單和有效。
以下是一些重要的設計和執行建議:
1、提前收集數據
人們往往不會把執行分析學的數據標注當作優先任務。
這是錯誤的,因為數據收集一般要貫穿整個開發過程,需要的時間是執行的三到五倍。
2、盡早收集事件數據
當事件及其參數定義好時,開發者就可以確定什么時候需要什么數據了。
一開始就把這樣的數據結構結合到代碼中,可以保證當代碼需要這些數據時就能有現成的數據。
如果把事件收集放在開發過程的末尾,通常只能收集到60%有價值的數據,這說明沒有充分利用分析學。
3、統一視角
復雜的游戲通常涉及多個系統。例如,登錄系統可能不同于支付系統,這意味著數據來源通常有兩個:服務器和游戲客戶端。
因此,有必統一視角,即使戶ID與登錄活動保持一致。
這樣,分析時就可以忽略數據來源,把所有信息放在一起。
4、同步時間標記
類似地,因為事件數據來自多個來源、時區和應用商店,有必要使用同步時間標記,以確保觀察玩家行為的視角能夠保持一致。
發送客戶端數據時通常使用本地時間標記,而服務器數據記錄的通常是保存數據的時間。
如果兩個時間標記不一樣,就會很難知道真正的事件順序,從而不利于建立玩家行為檔案。
5、創建單一登錄ID
將這個獨特的ID與一次登錄中發生的所有事件聯系在一起,對高效分析特別重要。
如果事件發生后才關聯數據,必然會導致誤差和錯誤。
考慮到大量初次玩家留存分析學專注于第一次游戲,統一而準確地定義你的登錄活動是很重要的。
6、總是記錄結果
事件的目標應該是記錄結果而不是變化。
換句話說,記錄任務的結果比記錄任務中的各種變化更好。例如,記錄當玩家完成任務時獲得了什么,即得到多少經驗點或殺敵數,比記錄每一次射擊更實用。
7、數據完整性vs.數據優先級
關鍵詞: 關鍵詞模板庫; 景區輿情; 滿意度; 評價數據
中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2017)03-62-03
Abstract: This paper puts forward a method of analyzing public opinion and satisfaction on the evaluation data of scenic spots based on tourist demand template. By means of keywords template library building and expansion based on the template of tourism demand, the paper analyses and builds the model of the public opinion and satisfaction on the evaluation data. It solves the problem that unstructured content such as tourists' travels and evaluation cannot be efficiently searched and utilized by other tourists. It can not only provide tourists with scenic spots' comprehensive satisfaction value, but also satisfaction values in the specific area of cuisine, housing, transportation, travelling, shopping, and entertainment, and even more specific related content of the satisfaction value in those six aspects. Thus it helps visitors quickly understand the evaluation of the various parameters of the area.
Key words: template library; public opinion of scenic spots; satisfaction; evaluation data
0 引言
隨著經濟的發展,現在已經進入旅游智能化階段和大數據的時代,游客通常通過查看媒體互動分享評價來決定自己旅游計劃。然而,傳統游客在游記中對景區景點的評價內容是非結構化、離散的,即難以采用一定的算法對其進行有規律地提取和組織,從而導致不能采用計算機智能對其提取分類。然而游客對“吃、住、行、游、購、娛”的評價獲取需求頗為急切,因此需要采用一種新的技術來實現游客評價的自動化提取并對大量的數據進行高效的有價值的分析[1-3]。
1 本文提出的方法步驟及特征
本文提出一種基于旅游需求模板的景區評價數據分析輿情滿意度方法,主要有基于旅游需求模板的關鍵詞模板庫構建(見圖1)、關鍵詞模板庫的擴充(見圖2)和針對景區評價數據的輿情滿意度分析計算三個步驟。該方法的特征在于:所述的旅游需求模板主要由內容大類關鍵詞、內容子類關鍵詞和情感關鍵詞構成,每個內容大類關鍵詞下分屬有其對應的內容子類關鍵詞,每個內容子類關鍵詞下分屬有其對應的情感關鍵詞[4-5]。
1.1 基于旅游需求模板的關鍵詞模板庫構建
主要由基于旅游需求模板引導評價的內容大類關鍵詞、內容子類關鍵詞和情感關鍵詞構成,每個內容大類關鍵詞下分屬有其對應的內容子類關鍵詞,每個內容子類關鍵詞下分屬有其對應的情感關鍵詞。
關鍵詞模板庫初始由列舉而成,所述的內容大類關鍵詞包括吃、住、行、游、購、娛的六個類別;所述的內容子類關鍵詞是在內容大類關鍵詞的基礎上構建的;所述情感關鍵詞是對內容子類關鍵詞的描述性詞語。
1.2 關鍵詞模板庫的擴充
關鍵詞模板庫的擴充具體是采用以下方式對內容子類關鍵詞和情感關鍵詞進行擴充:
⑴ 在已構建的關鍵詞模板庫基礎上,通過網絡爬蟲工具在內容大類關鍵詞所在段落文字附近搜索內容子類關鍵詞,將找到的在已構建關鍵詞模板庫中不存在的內容子類關鍵詞作為新的內容子類關鍵詞,并加入到關鍵詞模板庫中;
⑵ 在已構建的關鍵詞模板庫基礎上,通過網絡爬蟲工具在內容子類關鍵詞所在段落文字附近搜索情感關鍵詞,將找到的在已構建關鍵詞模板庫中不存在的情感關鍵詞作為新的情感關鍵詞,對新的情感關鍵詞賦權值后加入到關鍵詞模板庫中。
1.3 針對景區評價數據的輿情滿意度分析計算
所述針對景區評價數據的輿情滿意度分析計算具體是:由擴充后的關鍵詞模板庫通過網絡爬蟲工具搜索景區下的文字數據,抽取出內容大類關鍵詞所在段落文字附近的內容子類關鍵詞,再搜索抽取出每個內容子類關鍵詞所在段落文字附近的情感關鍵詞,從而獲得所有情感關鍵詞及其每個情感關鍵詞對應的內容子類關鍵詞和內容大類關鍵詞,然后構建景區輿情與滿意度的分析模型,通過景區輿情與滿意度的分析模型獲得以平均滿意度值作為該景區的輿情滿意度值。
2 景區輿情與滿意度的分析模型
⑴ 先采用以下公式計算獲得文字數據中所有評論中的關于某一個內容子類關鍵詞的滿意度值:
其中,表示第i個內容大類關鍵詞下第j個內容子類關鍵詞的平均滿意度值,t是分值(1~5),表示i個內容大類關鍵詞下第j個內容子類關鍵詞對應分值為t的情感關鍵詞的數量,Bij表示第i個內容大類關鍵詞下第j個內容子類關鍵詞,B{B11,B12,B13…B21,B22,B23…}代表內容子類關鍵詞集合。
⑵ 再采用以下公式計算獲得文字數據中一個內容大類關鍵詞的滿意度值:
其中,表示第i個內容大類關鍵詞的滿意度值,表示第i個內容大類關鍵詞下第j個內容子類關鍵詞的權值,n表示第i個內容大類關鍵詞下內容子類關鍵詞的數量,A{A1,A2,…,A6}代表內容大類關鍵詞集合。
⑶ 再采用以下公式計算獲得該景區的綜合滿意度值:
其中,Y表示景區的綜合滿意度值,i表示內容大類關鍵詞的序號,i取值范圍是1~6,表示第i個內容大類關鍵詞下的的權值。
3 具體實施方式
3.1 基于旅游需求模板的關鍵詞模板庫構建
⑴ 內容大類關鍵詞構建,主要包括吃、住、行、游、購、娛幾個大類。
⑵ 內容子類關鍵詞構建,主要是在內容大類關鍵詞的基礎上構建,比如和內容大類關鍵詞吃相關的內容子類關鍵詞有飯店、餐館、快餐店、小吃街等。
⑶ 情感關鍵詞構建,主要是在內容子類關鍵詞基礎上構建,比如和內容子類關鍵詞‘吃’對應的情感關鍵詞有味道很好,價格實惠,環境優美等。
3.2 關鍵詞模板庫的擴充
⑴ 基于需求模板引導評價的內容子類關鍵詞庫擴充,通過網絡爬蟲工具在內容大類關鍵詞附近搜索相關的內容子類關鍵詞并與已有的模板庫進行對比,遇到新的內容子類關鍵詞后,自動加入到模板庫,比如遇到與內容大類關鍵詞吃相關的新的內容子類關鍵詞野味店等。
⑵ 基于需求模板引導評價的情感關鍵詞庫擴充,通過網絡爬蟲工具八爪魚采集器,在內容子類關鍵詞附近搜索相關的情感關鍵詞并與已有的模板庫進行對比,遇到新的情感關鍵詞后,自動加入到模板庫。
⑶ 情感關鍵詞均已由用戶進行賦分,給出分值(1~5),比如非常好/棒極了/美妙極了,這三個情感詞表達的滿意度是相同的,對應的分值都是5分,一般/湊合/還行對應的分值則都是3分;差極了/難受死了/簡直就是受罪/再也不會去了,對應的分值則是1分。
3.3 針對景區評價數據的輿情滿意度分析計算
⑴ 根據已有模版庫構建評價體系表。內容大類關鍵詞和內容子類關鍵詞的權重和情感關鍵詞的分值以及相同分值評論數量如表1所示,表中{}表示第i個內容大類關鍵詞下第j個內容子類關鍵詞對應分值為t的情感關鍵詞的集合。
⑵ 通過網絡爬蟲工具搜索景區網頁的每個帖子,按內容子類關鍵詞,搜索所有相關的情感關鍵詞,根據表1進行分類統計,把相應的情感關鍵詞的數量記錄到對應到中。
比如:通過網絡爬蟲工具搜到網頁得到1000個情感關鍵詞,有600個是與內容大類關鍵詞‘吃A1’有關的,其中300個是與內容子類關鍵詞‘味道B11’有關的,對應的情感關鍵詞集{}及數量如表2所示。
由內容子類關鍵詞滿意度計算公式可知該景區關于吃的味道的滿意度值為:
即:該景區關于吃的味道的滿意度值為3.6,同理可以計算其他內容子類的關鍵詞的滿意度值。
4 結束語
通過這種方法得到滿意度值,解決了以往游客的游記、評價等非結構化內容難以被其他游客高效搜索利用的問題,除了可以向游客提供某個景區的綜合滿意度值外,還可以向游客提供該景區具體的關于吃、住、行、游、購、娛六個方面的滿意度值,以及比吃、住、行、游、購、娛更具體的相關內容子類關鍵詞的滿意度值,讓游客快速了解該景區的各個評價參數。
參考文獻(References):
[1] 維克托.邁爾舍恩伯格著,盛楊燕,周濤譯.大數據時代:生活、工作與思維的大變革[M].浙江人民出版社,2013.
[2] 馬建光,姜巍.大數據的概念、特征及其應用[J].國防科技,2013.2:10-11
[3] 黃先開,張麗峰,丁于思.百度指數與旅游景區游客量的關系及預測研究-以北京故宮為例[J].旅游學刊,2013.11:93-100
關鍵詞:大數據分析方法;企業檔案管理;檔案數據資源;企業創新決策
Abstract: With the gradually go deep into the research of big data, the enterprise innovation decision-makings are more and more dependent on data analysis, and the enterprise archive data resources provide the data base for enterprise’s these decisions, therefore used of big data analysis in Enterprise Archive Management has important significance. This paper detailed expounds the Data Quality Management, Visualization Analysis, Semantic Engines, Data Mining, Tendency Prediction and so on five big data analysis methods in the application of Enterprise Archive Management and problems that deserve attention.
Keywords: Big data analysis method; Enterprise Archive Management; archives data resources; enterprise innovation decision-making
2015年9月5日,我國政府了《促進大數據發展行動綱要》,旨在促進大數據和云計算、物聯網、移動互聯網等新一代信息技術的融合,探索大數據和傳統產業發展新模式,推動傳統產業轉型升級和新興產業發展。正如大數據專家舍恩伯格所說:大數據正在改變人們的生活和人們理解世界的方式,更多的變化正蓄勢待發,大數據管理分析思維和方法也開始影響到我們企業檔案管理的發展趨勢。
1 大數據分析方法在企業檔案管理中應用的背景
1.1 大數據研究逐漸縱深化。自從2008年science雜志推出Big Data專刊以來,國內外對大數據的研究如火如荼。經過一段時間的探索,“目前大數據領域的研究大致可以分為4個方向:大數據科學、大數據技術、大數據應用和大數據工程。而人們對于大數據技術和應用兩個方面的關注比較多”[1]。正如2012年奧巴馬政府投入2億美元啟動 “大數據研究和發展計劃”的目標所顯示的那樣,目前大數據的研究逐漸向縱深化方向發展,著重從大型復雜的數據中提取知識和觀點,幫助企業實現從“數據分析能力”向“數據決策能力與優勢”的轉化。
1.2 企業創新決策越來越依賴于數據分析。對于企業技術創新者而言,目前更多的企業高層越來越依靠基于數據分析的企業技術創新決策。靠傳統的經驗方法去決策往往是滯后的,因此,大數據分析方法作為先進的定量分析方法,目前出現的一些先進數據分析方法與技術勢必會對企業的運行管理、生產業務流程、管理決策產生飛躍式的影響。大數據分析方法也成為企業檔案數據分析、技術創新決策的有效工具。
1.3 企業檔案為企業創新決策提供數據基礎。對于一個企業而言,使用的數據資源必須具有真實性可靠性。“企業檔案是在企業的各項活動中直接形成并保存備查的各種文獻載體形式的歷史記錄”[2],企業檔案是企業在生產、經營、管理等活動中形成的全部有用數據的總和。除了發揮著憑證參考維護歷史真實面貌的作用之外,企業檔案更“是企業知識資產和信息資源的重要組成部分”[3],具有知識創新性、不可替代性,為企業技術創新決策提供數據基礎。“特別是在當前大數據背景下,企業檔案數據資源的開發與建設對企業經營決策的制定與適應市場競爭環境起到關鍵性作用。”[4]
在上述背景下,將大數據分析方法應用在企業檔案管理中具有重要性意義:不僅拓展企業的管理決策理論,同時幫助企業運用所擁有的檔案數據資源洞察市場環境,發現新的競爭對手,進行自我總結,做出科學決策,使企業緊緊抓住大數據時代帶來的市場機遇。
2 大數據分析方法在企業檔案管理中應用的方式
大數據分析方法在企業檔案管理中的實現方式即是將大數據分析方法運用在企業檔案信息分析挖掘上。它貫穿企業數據處理的整個過程,遵循數據生命周期,廣泛收集數據進行存儲,并對數據進行格式化預處理,采用數據分析模型,依托強大的運行分析算法支撐數據平臺,發掘潛在價值和規律并進行呈現的過程。常見的大數據分析方法“其相關內容包括可視化分析、數據挖掘、預測分析、語義分析及數據質量管理”[5]。
2.1 數據質量管理提升企業檔案數據資源品質。大數據時代企業檔案數據資源呈現出4V特點,這使得企業檔案數據很容易出現不一致、不精確、不完整、過時等數據質量問題。基于數據生命周期對企業檔案數據資源進行數據質量管理分為數據預處理、數據存儲、數據使用三個階段。在數據預處理階段,通過ETL工具即數據經過萃取(Extract)、轉換(Transform)、加載(Load)至目的端這幾個預處理過程達到數據清洗和格式化的目的。目前Oracle公司的Data Integrator和Warehouse Build、微軟的Dynamics Integration及IBM的Data Integrator都是比較常見的ETL工具。在數據存儲與使用階段,針對目前企業檔案大數據呈現出4V的特點,傳統關系型數據庫在數據存儲與數據管理方面已經難以勝任,非關系型數據庫以其高吞吐量、可拓展性、高并發讀寫、實時性等特性能夠滿足數據存儲與管理的要求。目前應用最廣的是并行處理系統MapReduce和非關系型數據庫比如谷歌的Big Table和Hadoop的HBase。將ETL工具移植入云計算平臺系統,將會大大有助于完成數據清洗、重復對象檢測、缺失數據處理、異常數據檢測、邏輯錯誤檢測、不一致數據處理等數據質量處理過程,從而保證企業檔案數據資源的數據質量。
2.2 可視化分析提升企業檔案數據資源可理解性。
“大數據可視分析是指在大數據自動分析挖掘方法的同時,利用支持信息可視化的用戶界面以及支持分析過程的人機交互方式與技術,有效融合計算機的計算能力和人的認知能力,以獲得對于大規模復雜數據集的洞察力。”[6]那么企業檔案數據資源的可視化分析可以理解為借助可視化工具把企業檔案數據資源轉化成直觀、可視、交互形式(如表格、動畫、聲音、文本、視頻、圖形等)的過程,便于企業經營者的理解利用。
以2015年2月15日最新版的“百度遷徙”(全稱“百度地圖春節人口遷徙大數據”)為例,該項目讓我們近距離了解到大數據可視化。它利用百度后臺每天數十億次的LBS定位獲得的數據進行計算分析,全程展現中國人口遷徙軌跡,為政府部門科學決策提供科學依據。受該項目啟發,企業可將擁有不同類型的檔案信息進行可視化,比如進行企業檔案的網絡數據可視化、時空數據可視化、時間序列數據可視化、多維數據可視化、文本數據可視化等[7]。以文本數據可視化為例,目前典型的文本可視化技術標簽云,可以將檔案文本中蘊含的主題聚類、邏輯結構、詞頻與重要度、動態演化規律直觀展示出來,為企業決策提供依據。另外,常見的信息圖表類可視化工具主要有Google chart、 IBM Many Eyes、Tableau、Spotfire、Data-Driven Documents(D3.js)等;時間線類可視化工具主要是Timetoast,、Xtimeline、Timeslide、Dipity等;數據地圖類可視化工具主要有Leaflet、Google fushion tables、Quanum GIS等。這些新技術都為企業檔案數據資源可視化提供了科學工具。
2.3 語義引擎實現企業檔案數據資源的智能提取。大數據時代全球數據存儲量呈激增趨勢,傳統的基于人工分類目錄或關鍵詞匹配的搜索引擎(谷歌、百度等)僅僅能夠進行簡單的關鍵詞匹配,用戶無法得到非常準確的信息,檢索準確率并不高,而且檢索結果相關度較低,檢索結果缺乏引導性。為提供給用戶高質量的檢索結果,改善用戶搜索體驗,提高效率,實現智能提取,語義搜索引擎應運而生。“語義引擎是隨著語義網的發展,采用語義網的語義推理技術實現語義搜索的語義搜索引擎。”[8]它具備從語義理解的角度分析檢索者的檢索請求,能夠理解檢索者的真正意圖,實現信息智能提取。對語義分析可以采取自然語言處理方法進行概念匹配,提供與檢索者需求相同、相近或者相包含的詞語。目前存在基于本體的語義處理技術,它以本體庫作為語義搜索引擎理解和運用語義的基礎。對于企業而言,將語義引擎分析方法與協同過濾關聯規則相結合,可以挖掘用戶的需求,提供個性化的服務。比如亞馬遜公司通過對用戶檢索的語義進行分析推理,結合協同過濾關聯規則,為用戶提供相近需求的產品,提升自己的經濟效益。對于一份人事檔案而言,語義引擎也能分析出該份人事檔案中的某人的職務、級別,從中提取出姓名一職務一級別一時間等關鍵信息,提高檢索準確率和效率,實現智能提取。
2.4 數據挖掘發現企業檔案數據資源的隱性價值。“數據挖掘又稱數據庫中的知識發現”[9]。簡而言之,數據挖掘就是企業從數據集中發現知識模式,根據功能一般分為預測性模式和描述性模式,細分主要有分類與回歸模型、聚類分析模型、關聯規則模型、時間序列模型、偏差檢測模型等。主要挖掘方法有神經網絡方法、機器學習方法數據庫方法和統計方法等。
數據挖掘是大數據分析方法的核心。對于企業而言,數據挖掘的檔案數據資源應該由兩部分組成:一是企業正常運行管理過程中所形成的檔案數據資源,通過運用分類、聚類、關聯規則等方法對企業內部的數據進行挖掘,發現潛在模式,為企業技術創新人員決策提供支持。比如在2004年全球最大的零售商沃爾瑪在分析歷史記錄的顧客消費數據時,發現每次季節性颶風來臨之前,手電筒和蛋撻的數量全部增加。根據這一關聯發現,沃爾瑪公司會在颶風用品的旁邊放上蛋撻,提升了企業的經濟效益;二是企業在運行過程中遺存在互聯網上的數據,通過網絡輿情及時跟蹤可以獲取市場最新動態,為企業調整服務模式、市場策略、降低風險提供依據。比如Farecast公司運用數據挖掘,從網絡抓取數據來預測機票價格以及未來發展趨勢,幫助客戶把握最佳購買時機,獲得較大成功。
2.5 趨勢預測分析實現企業檔案數據資源的價值創造。“預測分析是利用統計、建模、數據挖掘工具對已有數據進行研究以完成預測。”[10]預測分析的方法分為定性與定量分析兩種方法:定性分析如德爾菲法以及近年來人工智能產生的Boos-ting?貝葉斯網絡法等;定量分析法一般從形成的歷史數據中發掘數據模型達到預測效果,如時間序列分析模型、分類與回歸分析模型等。
企業檔案數據資源預測分析是在企業檔案數據資源數據挖掘的基礎之上,發現適合模型,將企業檔案數據輸入該模型使得企業技術創新人員達到預測性的判斷效果,實現價值的創造。一個典型的例子即是市場預測問題,企業技術創新者可以根據檔案數據預測某件產品在未來六個月內的銷售趨勢走向,進而進行生產、物流、營銷等活動安排。具體來講企業可以通過數據時間序列分析模型預測產品銷售旺季和淡季顧客的需求量,從而制定針對獨特的營銷策略,減少生產和銷售的波動性,獲得利潤和競爭優勢。預測分析在大數據時代彰顯出企業檔案數據資源獨特的魅力。
3 大數據分析方法運用于企業檔案管理中應當注意的問題
3.1 成本問題。大數據分析需要依靠分析工具和運算時間,特別是在復雜的企業檔案數據資源中采用相關大數據分析工具的科技成本還是很高的,要以最少運算成本獲得更有價值的數據內容。合理選擇大數據分析工具不光可以節省運算成本而且能夠更快速獲取盈利增長點,同時在大數據分析和企業檔案數據資源的存儲成本方面也要適當的控制在合理的范圍內。既要保證大數據分析質量,又要降低企業檔案存儲成本是大數據分析方法運用到企業檔案管理中的重要原則。
3.2 時效問題。“大數據的動態性強,要求分析處理應快速響應,在動態變化的環境中快速完成分析過程,有些甚至必須實時分析,否則這些結果可能就是過時、無效的”。[11]由此可見,影響大數據分析的重要因素就是時效性問題。“大數據數據分析的核心內容之一是數據建模”,[12]數據分析模型要不斷的更新適應數據的動態變化。如果模型落后于數據的變化,那數據分析只能是失效的。同時由于經濟環境、政治生態、社會文化等因素不斷變革,企業檔案數據的收集也會產生新的問題。只有不斷加強對這些數據的實時監測和有效分析,才能更好的識別出數據變化中的細微之處,建立與之相適應的數據分析新模型。
3.3 情感問題。“大數據的另一個局限性在于它很難表現和描述用戶的感情。”大數據分析方法在處理企業檔案數據方面可以說如魚得水,大數據分析是一種科學的機器運算方法,無法去實現人文價值提取,比如如何從企業檔案數據資源中提取企業文化,這更需要人的情感直覺去實現,而嚴謹的科學數據是無法實現的。因此,我們在熱衷于大數據分析方法的量化結果時,同時也不要忽略在傳統企業檔案管理中的那份人文精神。
我們在教學的過程中,也比較比較注重案例教學。例如,在講授神經網絡時,我們可以用上海證券交易所中股市中股票隨時間變化的數據為例,讓學生討論如何應用神經網絡對股票價格進行預測。人工神經網絡是一種模仿自然界動物神經網絡行為特征,進行分布式并行信息處理的算法數學模型,能夠較好地處理具有一定復雜性的數據,在預測、擬合等方面取得了很好的應用效果。讓學生采用神經網絡進行實際數據分析和處理,可以增強他們學習的積極性,更主動地投入到學習中去。我們也要求他們使用回歸分析的方法對股票價格進行預測,然后和神經網絡預測的結果進行比較。通過這個過程,可以使學生們不但了解了神經網絡與回歸分析算法的異同,加深他們對神經網絡的認識。
加強實驗教學,增強學生動手能力
信息與計算科學專業是以信息領域為背景,數學與信息、管理相結合的交叉學科專業。該專業培養的學生具有良好的數學基礎,能熟練地使用計算機,初步具備在信息與計算科學領域的某個方向上從事科學研究,解決實際問題,設計開發有關軟件的能力。畢業生適合到企事業單位、高科技部門、高等院校、行政管理和經濟管理部門,從事科研、教學和計算機應用軟件的開發和管理工作,也可以繼續攻讀信息與計算科學及相關學科的碩士學位。從信息與計算科學專業的培養目標可以看出信息與計算科學專業的本科生不但需要掌握理論知識,還需要具有將所學知識用來解決實際問題的能力。數據挖掘作為一門應用性較強的課程,需要學生能夠運用數據挖掘知識分析和解決實際問題,要求學生能夠熟練掌握數據挖掘的程序設計,以便在將來的就業中具有更好的適應性,因此實驗環節的教學有著其必要性。基于這些原因,我們在這門課中引入實驗環節,并將其納入考核要求。我們實驗所用的基本軟件是SAS統計分析軟件。SAS軟件是一個集統計分析、報表圖形、信息系統開發和大型數據庫管理等多種強大功能為一體的大型軟件系統,是目前國際上主流的統計分析軟件之一。我們信息專業在大三時開設這門課程,之前已經學過C語言和JAVA等程序設計方法,有了一定的編程基礎,因此學習使用SAS軟件并不是特別困難。而且,在SAS軟件中,系統自帶了許多數據挖掘函數,這方便了同學們的使用。我們在平時的學習中,將一些SAS軟件的基本程序設計基礎知識先發給同學們,讓他們利用課后時間自己在個人電腦上進行熟悉,從而使得他們熟悉基本SAS程序設計方法,這樣可以在實驗課上直接運用SAS軟件進行數據挖掘程序的編寫。在實驗課上,我們主要將要實驗的內容和相關數據資料提供給同學,要求同學自己用數據挖掘的知識和SAS軟件進行編程實現,并寫出實驗分析和小結。另外,在實驗中,我們也要求學生盡可能將一些實驗結果用圖表的形式如崖底碎石圖等表示出來,以利于進一步分析。對于少部分學有余力的同學,我們也引導他們自編相關的程序。比如說在SAS軟件中進行K-均值聚類用fastclus這個函數就可以了,但是學生對程序具體實現過程可能不是很清楚。如果學生能夠將程序K-均值聚類詳細程序步驟自己編寫出來,就可以表明學生對所K-均值聚類算法也有了較清楚的認識。另外,對于屬于數學建模協會的同學,我們也引導他們將數據挖掘的知識和數學建模中某些問題相結合起來,對于以往出現的一些可以利用數據挖掘知識分析的問題讓他們利用相關的數據挖掘知識對其進行分析和求解,通過這樣的方式,可以這樣拓展這些同學的思路,也為數學建模培養了人才。
靈活的課后作業形式,提高學生的綜合能力
關鍵詞:數據源分解 回歸測試 需求版本 數據實體
中圖分類號:TN967 文獻標識碼:A 文章編號:1674-098X(2016)12(a)-0096-02
吉林移動的業務運營支撐系統規模龐大、結構復雜、內部的關聯關系復雜。由于業務發展變化迅速,信息化系統也會做頻繁的版本變更,對系統變更的質量保障至關重要。
對系統版本變更的交付測試驗證,是系統質量保障的重要手段,不僅僅要測試當前變更的功能,還要分析當前變更的功能有哪些關聯影響,對于被影響的業務、功能,要執行業務回歸測試,以減少系統上線的質量漏洞。
1 現有判定業務回歸測試范圍方法存在的缺點
目前業務回歸測試范圍的確定主要依賴于測試人員積累的經驗,根據經驗判斷要做哪些相關業務、功能的回歸測試。這些經驗缺少基于可靠數據的量化分析。
通常系統版本上線時間要求都非常緊,不可能做全面的業務回歸測試,而業務回歸測試范圍確定不準確,會導致質量驗證的漏洞,嚴重影響系統可靠性。
2 基于數據源分解判定業務回歸測試范圍的方案
該方案是建立回歸測試范圍數據分析模型,該模型包括:全業務數據源分析引擎、需求版本數據源識別引擎、回歸測試范圍數據源多元比對引擎,旨在提出一種基于數據源分解的可量化的業務回歸測試范圍分析模型。
2.1 全業務數據源分析引擎
其是將業務運營支撐系統中所有的業務功能、源程序、數據結構等,通過數據源之間的調用關系尋找它們的依賴關系,包括:
(1)將業務運營支撐系統全業務數據源按數據源類型分類。(2)利用Java中的BufferedReade和FileReader進行遞歸運算遍歷業務運營支撐系統全業務數據源,組建全業務數據源關聯關系模型,確定業務運營支撐系統數據源的范圍邊界。(3)將遍歷后得到的關系結果存儲到數據庫中。
2.2 需求版本數據源識別引擎
主要通過需求版本重疊探測器、需求版本屬性識別器、需求版本規則識別器三方面。
(1)需求版本重疊探測器:判定需求版本是否與版本庫需求重疊提交,避免工作資源的浪費。(2)需求版本屬性識別器:確定并記錄需求版本所對應的各類數據源的修改點。(3)需求版本規則識別器:利用全業務數據源分析引擎解析需求版本所對應數據源之間的依賴關系。
2.3 回歸測試范圍數據源多元比對引擎
采用ORACLE數據游標指針技術作為源數據的比對方式。
3 主要技術實施方案描述
下面對基于數據源分解判定業務回歸測試范圍在業務運營支撐系統的實際應用中所采用的技術實施方案進行描述,包括三個方面。
3.1 全業務數據源分析引擎描述
將業務運營支撐系統的全業務數據源分為5類:業務功能、源程序、函數與結構體、數據實體、實體字段,把全業務源數據分解為若干的部分。
利用Java中的BufferedReade和FileReader進行遞歸運算遍歷業務運營支撐系統全業務數據源,組建全業務數據源關聯關系模型。利用Java程序編寫遞歸函數,對現有業務運營支撐系統全業務涉及的所有源數據進行讀取。利用源數據分類及每個類別所特有的關鍵字對源數據進行解析。將遍歷后得到的關系結果以多維變長數據形式存儲到數據庫中,作為技術數據保存。
3.2 需求版本數據源識別引擎描述
其包含需求版本重疊探測器、需求版本屬性識別器、需求版本規則識別器三方面,通過以下技術措施一并實現。
建立業務運營支撐系統需求版本屬性識別器。確定并記錄需求版本所對應的各類數據源的修改點,包括軟件版本變更的內容清單(變更的功能,變更的程序,變更的數據實體)。通過需求版本屬性識別器,將變更的數據源名稱入庫,并對該次需求版本變更的數據源通過全業務數據源分析引擎解析入庫。利用自動化版本比對,得到修改點。將結果同樣以多維變長數據存儲到數據庫中,作為全業務數據源分析引擎結果比對的基礎數據。
3.3 回歸測試范圍數據源多元比對引擎描述
采用數據游標指針技術對源數據進行笛卡爾乘積運算比對。確定全業務數據源與需求版本數據源比對范圍。包括:程序比對、函數比對、機構體比對、關鍵字比對、數據實體比對、數據字段比對。利用數據庫技術將需求版本數據源識別引擎所分析的結果,逐一與全業務數據源分析引擎的全業務關聯關系進行比對。一個系統功能與多個應用程序/函數/數據實體相互對應,而多個應用程序/函數/數據實體也同樣對應一個或多個系統功能/應用程序,這樣逐個數據源分解就會形成一個網狀結構,眾多的全業務數據源與需求版本數據源交織在一起,構成了它們之間存在的必然關聯,形成了基于數據源分解判定業務回歸測試模型的核心部分。這也正是這個技術專利的關鍵所在,隨意觸發一個需求版本的數據源,都可以透過這些關聯將與其密切關聯、受其影響的系統功能/應用程序及數據實體輕易找到,從而保證了回歸測試的完整性及準確性。
4 基于數據源分解判定業務回歸測試范圍的優點
采用基于數據源分解判定業務回歸測試范圍的方案后,有效降低了軟件版本升級對原有系統的不確定性影,大幅提升了系統的可靠性和穩定性。
4.1 業務回歸測試范圍分析有可靠的數據依據
通過數據源分解可以對系統全業務涉及的所有數據源進行分析,保證了基礎數據的最大范圍,避免了數據源的遺漏,有效提高了業務回歸測試的覆蓋度,從而提高了對系統交付測試驗證的質量,減少了質量漏洞,降低了需求版本上線風險。
4.2 業務回歸測試范圍分析效率的提升
現有技術方案采用人為經驗判斷及人工讀取代碼的方式進行,而該方案采用的是計算機智能數據源分解自動化處理的方式。一個經驗豐富的開發人員每分鐘編寫代碼約30行,讀取代碼約60行,而該發明采用計算機自動分析每分鐘分析數量8 500行左右,是人工分析的140倍。該方案隨著硬件性能的提升,具備更大效能提升的空間。
4.3 業務回歸測試范圍分析知識可持續積累和復用
采用數據源分解的業務回歸測試范圍、測試方案管理可以有效地形成知識的積累和沉淀,并借此創建知識庫,有助于業務人員、測試人員水平的快速提高及知識傳遞。
參考文獻
[1] 王軼辰.軟件測試從入門到精通[M].電子工業出版社,2010.
【關鍵詞】環境監測數據;分析;重要性
1.環境監測數據的特征及重要性
1.1環境監測數據的特征
環境監測數據規定了每一次監測獲得的數據的可使用范圍,超出該范圍得出的數據就被視為是不合格的。這是因為監測數據是具有局限性的,這種局限性是為了保證監測數據的準確性與可靠性。同時,對于監測獲得的數據要求具有完整性,不應該有缺失或是遺漏的現象。對于在規定范圍內的監測數據,如果這些數據不僅具有代表性,還具備完整性,那么就達到監測的目的了[1]。
1.2環境監測數據的重要性
環境監測的重要性在于它能為環境的管理、規劃、評價等提供科學、有力的依據。出于對我國正處于經濟高速發展階段的考慮,我們對環境監測應給予更高的重視。一般來說,環境監測數據的質量以及分析能力的高低可以反映出一個監測站工作能力,也體現了該監測站在環境保護工作所處地位的高低。
2.對環境監測數據的填制及整理要求
對于監測獲取的相關圖標和原始數據,要進行適當的整理和歸類,以便后面的工作可以更加有利地開展與進行。在填制監測數據時就應該選取標準的記錄表格,在填寫時要盡量的專業化、規范化,并且要保證書寫清晰、準確。對于原始數據的檢查,要逐個地進行、確認,將那些不能真實地反映監測情況的數據去掉。這樣做的目的是為了將數據整理得更有條理,更有實用性,減免不必要的反復檢查,影響工作效率的提高。同時,還有一個問題需要注意,那就是作為監測數據確認的負責人不可以直接參與監測數據的采集工作[2]。
3.對環境監測數據的分析
環境監測是一種以環境作為對象,運用物理、化學和生物等技術手段,對污染物進行定性、定量和系統的綜合分析,它是環境評價中的重要環節,貫穿環境影響評價的整個過程。
3.1利用統計規律進行分析
環境監測是以統計學為基礎的,因此,這種分析方法經常被監測人員采用。這種分析方法包含了對環境要素的質量進行各種數學模式評價方法對監測數據進行解剖,利用它的內在規律性進行分析和利用,進而得出相關的論斷。這種方法在環境規劃、環境調查和環境評價的工作中使用較多[3]。
3.2通過對污染源的監測值來分析
監測人員可以通過對污染源的監測數據進行分析。其實,對污染物的監測對象不僅僅限于空氣、地下水、土壤等,還有一個人們經常說的工業污染源。工業污染是有多種的,不同行業的工業就會有其不同的污染物產生。比如,對于化工行業來講,它排出的有機物含量種類就較多多,而金屬物質相對就較少一些;金屬行業排出的污染物是有機物含量較少而金屬物質含量較多等。如果在一個金屬行業排除的廢棄物中監測得出的結果顯示是具有較多有機物的,那么對于這組監測數據應該重新考慮和分析,并從中找出原因。這也說明了一個問題,那就是監測人員在日常的工作當中要對管轄區內的生產企業相關情況進行了解,要根據不同的行業有針對性地選擇相應的監測項目來監測這些污染企業,實行對他們的有效監督[4]。
3.3根據事物之間的相關性原理進行分析
這種分析法主要是基于事物本身具有的相互關系的原理來來進行的。一般來說,兩個或者兩個以上的監測數據之間往往會存在某一種的固定聯系,監測人員可以根據這種固定的聯系去分析數據之間的相關聯系,也可以對單個已經實行控制質量措施的監測數據進行檢測,驗證是否正確。而對于一些例行的監測數據,則可以得出較為直觀的判斷。比如,氟含量跟硬度之間的關系。由于F與Ca、Mg形成沉淀物得容積度比較小,所以,在中性和弱堿性的水溶液當中,如果氟含量是在(mg/ L )級的,那么它的氟含量與Ca、Mg的含量就是呈顯負相關的現象,也就是說跟硬度值是負相關的。因此,在高氟區內得出的水質監測結果顯示的硬度監測值一般會比較低。如果獲得的氟含量較高,得出的硬度監測值也很高,那么這類監測數據就需要進行重新分析[5]。
4.結語
隨著我國環境保護的不斷深入,監測人員要在使用各種分析方法的同時不斷地去提嘗試新的分析方法,要在原來的基礎水平上更進一步地提高自己的綜合分析能力,對提供的監測數據要有一種精益求精的精神,爭取提供的數據更可靠更合理,業務技能不斷地有新的進步。由于獲取的環境監測數據與區域的過去和現在都有密切的聯系,因此,監測人員要對監測區域的過去和現在的環境狀況都要進行深入的了解和分析,在了解的基礎上展開全面的探討,這樣才可以保證獲取的監測數據更全面,更有說服力,質量更有保證。
參考文獻
[1]葉萍.淺論環境監測數據的綜合分析方法[J]中國環境管理干部學院學報, 2009, (01) .
[2]郭琦.環境監測在環境影響評價中的意義與建議[J].科技風, 2010, (15)
[3]孫曉雷.我國環境監測質量管理體系研究[J].科技傳播, 2010, (15)
關鍵詞:經典功率譜估計;現代功率譜估計;飛行試驗
1 概述
當飛機在閉環補償跟蹤任務中飛行時,飛機飛行品質的一種量度是它的穩定裕度,因而將在不危及穩定性的情況下可以進行閉環跟蹤的最大頻率定義為頻寬。頻寬是衡量最大頻率的一個指標,它對高增益飛機特別有用,不論是對駕駛員操縱力和操縱位移的俯仰姿態響應還是根據航向角或者橫向航跡角對座艙直接力空中輸入的開環頻率響應,它都可以在這個頻率條件下實現閉環跟蹤而不需要駕駛員提供有利的動態補償且不對穩定性構成惡化[5]。因此,在飛行試驗的數據分析中,獲取精準的飛機響應的頻域特性尤為重要,這就需要首先對操縱輸入信號進行功率譜估計,本文列出4種功率譜估計方法,并用這些方法對飛機的輸入激勵信號進行譜估計,以便得到適用行品質頻域準則評估的頻域特性。功率譜估計可分為經典譜估計和現代譜估計。
2 經典譜估計
功率譜密度是一種概論統計方法,是對隨機變量均方值的量度。平穩信號的自相關函數的傅立葉變換稱為功率譜密度。實際中采用有限長的數據來估計隨機過程的功率譜密度[2、3]。
2.1 周期圖法
周期圖法是信號功率譜的一個有偏估計,它對觀測到的有限長序列x(n)求其N點離散傅立葉變換XN(ej?棕),再取其模值的平方除以N,得到計算公式:
周期圖法是基本的功率譜估計方法,計算簡便,計算效率高,但是當數據長度N過大時,功率譜曲線起伏加劇,當N過小,譜分辨率較差。
2.2 加權交疊平均法(Welch法)
Welch法是對隨機序列分段處理,使每一段部分重疊,然后對每一段數據用一個合適的窗函數進行平滑處理,最后對各段譜求平均。這樣可以得到序列x(n)的功率譜估計:
(n)是窗函數[1],由于各段數據的交疊,數據段數L增大,從而減小了方差,另外,通過選擇合適的窗函數,也可使遺漏的頻譜減少,改進了分辨率。因此這是一種把加窗處理和平均處理結合起來的方法,它能夠滿足譜估計對分辨率和方差的要求,但是如果信號數據過短,也會無法進行觀測。
3 現代功率譜估計
現代功率譜估計分為參數模型法和非參數模型法。
3.1 參數模型法(AR模型的Burg法)
參數模型法是將數據建模成一個由白噪聲驅動的線性系統輸出,并估計該系統的參數。最常用的線性系統模型是全極點模型,也就是一個濾波器,這樣的濾波器輸入白噪聲后的輸出是一個自回歸(設AR模型的沖擊響應在方差?滓2的白噪聲序列作用下產生輸出,再由初值定理得到:
這就是AR模型的Yule-Walker方程。本文采用的是該方程的Burg法,即先估計反射系數,然后利用Levinson遞推算法,用反射系數求AR參數。Burg法在信號長度較短時能夠獲得較高的分辨率,并且計算高效。
3.2 非參數模型法(多窗口法)
多窗口法也叫做Thompson Multitaper Method,MTM法,它使用一組最優濾波器計算估計值,這些最優FIR濾波器是由一組離散扁平類球體序列(DPSS)得到的,除此之外,MTM法提供了一個時間-帶寬參數,它能在估計方差和分辨率之間進行平衡。因此,MTM法具有更大的自由度,在估計精度和估計波動方面均有較好的效果,其增加的窗口也會使序列兩端丟失的信息大幅減少[7]。
4 實例分析
本文采用Matlab計算,輸入信號使用飛行試驗中常用的掃頻和倍脈沖信號。通過Matlab中的譜估計函數方法[4、6],編寫程序對給定的輸入信號分別進行周期圖法、Welch法、Burg法和MTM法的譜估計并分析。估計結果如圖1、圖2所示:
從圖1、圖2可以看出:
(1)周期圖法得到的掃頻功率譜曲線起伏大,倍脈沖信號的頻譜分辨率低;(2)Welch法明顯改善了周期圖法的不足,方差性能得到很大的改善,只要窗函數選取適當,可減少頻譜泄露。圖中可見Welch法的譜估計曲線比較光滑,在飛行品質關注的頻段頻譜分辨率高;(3)Burg法的曲線平滑性好,頻譜分辨率高,但是其譜峰窄而尖,在飛行品質關注的低頻段頻譜并不理想,也就是不能在所需的頻段內產生足夠的能量;(4)MTM法得到的結果介于周期圖法和Welch法之間,但是對于時間序列較長的信號,MTM法的功率譜曲線起伏較大,分辨率變低。
5 結束語
通過4種功率譜估計方法對飛機輸入激勵信號的譜估計分析,采用Welch法得到了更有效的輸入信號的譜估計,得到的頻域特性能夠更好地進行飛行品質頻域準則的評估,這對飛行品質的等級界定提供了有效的依據。
參考文獻
[1]Mark B.Tischler,Robert K.Remple.Aircraft and Rotorcraft System Identification.AIAA,Inc,2006.8.
[2]楊曉明,晉玉劍,等.經典功率譜估計Welch法的MATLAB仿真分析[J].電子測試,2011,7(7):101-104.
[3]王春d.基于MATLAB實現經典功率譜估計[J].曲阜師范大學學報,2011,4(2):59-62.
[4]鄧澤懷,劉波波,李彥良.常見的功率譜估計方法及其Matlab仿真[J].電子科技, 2014,2(27):50-52.
[5] GJB2874-97.電傳操縱系統飛機的飛行品質[S].國防科學技術工業委員會,1997,12.
[6]楊高波,杜青松.MATLAB圖像/視頻處理應用及實例[M].北京:電子工業出版社,2010,1.
[關鍵詞]分布式存儲 大數據 平安城市 智能分析 告警 運維 集群
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-914X(2016)04-0308-01
一、 運維系統總體概述
運維系統作為平安城市的重要一個環節,主要就是對平安城市相關設備的監控,實現對攝像頭的上下線、高度、暗度、清晰度、雪花、色偏、條紋、凍結、抖動、遮擋的監控;實現對機房設備(UPS,空調,門禁,煙感,測漏,溫感)的實時監控和告警的接受及處理;實現對服務器等設備的實時監控和智能分析。然而系統每天接受告警和實時數據多達5萬條,可是高效的存儲和讀取數據已經成為傳統數據庫的難點。所以本系統采用分布式存儲方法,實現數據的高效插入和讀取,大大優化了用戶的體驗效果。
二、 分布式存儲說明
傳統的數據存儲主要采用集中存儲,把所有的數據存儲在一個存儲服務器中,然而大量數據的集中,導致了系統性能的下降,可靠性和安全性也成為了焦點。
分布式存儲,就是通過集群,提高系統的可靠性、可用性和存取效率。簡單的說,就是將大量數據分別存儲在不同的設備上。分布式存儲采用可擴展的系統結構,利用多臺存儲服務器分擔存儲負荷,利用位置服務器定位存儲信息,它不但提高了系統的可靠性、可用性和存取效率,還易于擴展。如圖1
三、 實現過程
運維系統監控數據主要分兩種,設備告警數據和設備實時數據。實時數據主要是方便查看設備的當前狀態,并可以通過告警配置,系統經過智能分析判斷設備是否出現故障,如果出現故障則產生告警;告警數據則是由設備自動推送告警,并在運維系統中加以處理。具體實現如下:
一、集群搭建,服務添加
建立由幾臺服務器并行的計算集群環境,并配置計算節點和數據節點服務器。配置其中1到2臺服務器為管理節點和計算節點,其他服務器為數據節點。安裝與集群環境版本匹配的數據訪問中間件,開發計算器安裝數據訪問中間件的客戶端,可以做可視化的數據操作。
二、設計運維告警數據存儲結構,并建立索引
1、根據告警的處理和設備性質,告警設置的字段主要有:“報警名稱”、“報警級別”、“報警來源”、“報警種類”、“報警時間”、“設備名稱”、“設備類型”、“處理狀態”、“處理時間”等存儲字段。
2、索引的建立。“報警級別”、“報警種類”、“設備名稱”、“設備類型”、“處理狀態”,這四個字段為最常用查詢字段,所以由這4個字段建立分布式可變索引。可變索引可以隨著數據插入自動更新索引數據,數據通過LSM樹的數據結構存儲在分布式數據庫。結構例如:1001+1001002+“服務器001”。
由于分布式存儲數據對設備名稱的模糊查詢效率較低,于是針對設備名稱建立的分布式索引。將設備名稱的分布式索引存儲在集群中的分布式文件系統中。例如:設備名稱:服務器001,在分布式索引中建立的索引是:“服、服務、服務器、服務器0、服務器00、服務器001、務、務器、務器0、務器00、務器001、器、器0、器00、器001、0、00、001、01 1 ” 。
3、分布式索引。生產環境下,由多臺服務器組成的分布式集群使用的是分布式文件系統。如果將索引文件建立在一臺服務器上,則不能體現設備名稱的分布式處理。為了保證整個查詢過程的高效性,同樣需要把索引文件分布式的存儲在整個集群中。
用戶在輸入一個字符之后,即可通過分布式索引文件的查詢返回包含該字符的10個設備名稱。返回設備名稱之后,系統根據最相似的設備名稱進行全字段匹配查詢,從而提高整體的查詢速度。
三、設計運維系統實時監控數據存儲結構,并建立索引
1、根據實時監控的需要,實時數據字段主要有:“機房ID”、“設備ID”、“監控時間”以及各種設備參數字段。
2、索引的建立。由于實時監控查詢相對簡單,直接建立“機房ID”、“設備ID”索引就可以滿足用戶的需求了,在這里面就不在多做闡述。
四、接入各設備信息數據
經過數據合法性和業務處理,數據通過中間件入庫,自動更新索引表,同時更新設備名稱的分布式索引。
五、數據的讀取和業務處理
程序查詢條件包含對索引的字段進行查詢,可在100毫秒之內返回相應數據。如圖2
參考文獻
[1] 《大規模分布式存儲系統:原理解析與架構實戰》 楊傳輝.
[2] 《大型分布式網站架構設計與實踐》 陳康賢.