前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數學建模聚類分析主題范文,僅供參考,歡迎閱讀并收藏。
中圖分類號 O242 文獻標識碼 A 文章編號 1673-9671-(2012)052-0202-02
1 概述
2000年6月,人類基因組計劃中DNA全序列草圖完成。DNA序列由A、T、C、G4種堿基按一定規律排列而成。當前生物信息學最重要的課題之一是研究由這4種堿基排列成的序列中蘊藏的規律。目前在這項研究中最普通的思想是省略序列的某些細節,突出特征,然后將其表示成適當的數學對象。這種被稱為粗粒化和模型化的方法往往有助于研究其規律性和結構。現已知20個人工序列1~10屬于A類,11~20屬于B類,要求運用數學建模方法發掘已知類別DNA序列的特征,從而據此對未知類別的20個DNA序列進行分類。本文對T和G堿基在各DNA序列中所占的比例數據進行標準化處理,放大兩類DNA序列的差異,采用模糊相似矩陣,模糊等價矩陣,λ截矩陣方法對DNA序列進行分類。
2 模糊聚類分析模型
2.1 主要研究步驟
通過觀察發現,A類DNA序列中G堿基含量較多,T堿基含量較少,而B類DNA序列則剛好相反。所以可用這20條DNA序列中T和G堿基在自身序列中所占的頻率作為基本研究對象,并對T、G堿基所占的比例的原始數據進行標準化,放大差異。再建立相應的模糊相似矩陣,模糊等價矩陣和λ截矩陣,找出一個最優的λ值進行DNA序列分類并使分類準確度達到最高。最后用上述方法以及λ值對另外20個未明類別的序列進行分類。
2.2 原始數據標準化
先對T和G堿基頻率作標準化處理。平移—標準差變換
(i=1,2…,20;j=2,4)
其中xi是第i個DNA序列,x'ij是指堿基A,G,C,T在第i個DNA序列中出現的頻率,x"ij是對x'ij進行標準化后的標準頻率值,
,,(j=2,4)。
進行平移—極差變換,(j=2,4),
可得到關于堿基頻率的模糊矩陣
2.3 模糊聚分析法
相關系數刻畫隨機變量之間的線性相關性:相關系數絕對值越大,隨機變量之間的線性關系越密切;相關系數為0,稱隨機變量線性無關。所以利用相關系數法對堿基頻率模糊矩陣的元素進行處理,利用公式:
得到一個關于xi與xj相似程度的模糊相似矩陣rij。
如果xi與xj的相似程度為rij,那么模糊矩陣R=(rij)20×20,顯然R是模糊相似矩陣,為
為了從模糊相似矩陣R得到模糊等價矩陣R=(rij)n×n,從n階模糊相似矩陣R出發,依次求平方RR2R4…直到R2i×R2i=R2i(2i≤n,i≤log2n),求出R傳遞閉包t(R),則t(R)=R。對于已知分類的20條DNA序列,由大到小取一組λ∈[0,1],確定相應的λ截矩陣Rλ=(λij)20×20,且λ截矩陣為一個對角線為1的對稱0-1矩陣。即可將其分類:若λij=1,說明第i條DNA序列與第j條DNA序列屬于同一類。若λij=0,說明第i條DNA序列與第j條DNA序列不屬于同一類。對于未分類的DNA序列,利用已求出的λ值,得到相應λ截矩陣,再利用已知λ值便可對未分類的DNA序列進行分類。
2.4 分類結果及其分析
應用Matlab軟件對第1-20個DNA序列數據進行處理,經平移-極差變得到類別A、B中A、T、C、G堿基的標準化頻率(表1)。
可得到標準化矩陣:
那么得到表示這1-20個DNA序列之間的相關程度的模糊相似矩陣:
進而求得傳遞閉包t(R)及模糊相似矩陣RR=t(R)。對模糊等價矩陣R進行分析,發現選取λ∈(0.8714,0.9834)會得到最高的準確
率,高達100%,識別率為90%,沒有出現誤判。計算時可取平均值λ=0.9764,得到λ截矩陣Rλ=(λij)20×20。對于λ截矩陣Rλ=(λij)20×20,若λij=1,說明第i條DNA序列與第j條DNA序列屬于同一類;若λij=0,則說明第i條DNA序列與第j條DNA序列不屬于同一類。最后得到分類結果:
A{1,2,3,5,6,7,8,9,10}
B{11,12,13,14,15,16,18,19,20}
C類(無法識別){4,17}。
采用以上方法對第1-20個DNA序列分類的準確率為100%,識別率為90%,沒有出現誤判。把標號為21-40的DNA序列添加到原來的數據中,采用同樣的模型與已求出的λ值對其進行分類,結
果為:
A類{22,23,25,27,29,33,34,35,36,37,39}
B類{21,24,26,28,30,31,38,40}
C類{32}。
3 結論
本文運用數學建模模糊聚類分析法方法,對T和G堿基在各DNA序列中所占的比例數據進行標準化處理,放大兩類DNA序列的差異,采用模糊相似矩陣,模糊等價矩陣,λ截矩陣方法對DNA序列進行分類,方法簡單、實用,且分類結果準確率高達100%,識別率為90%,沒有出現誤判。
參考文獻
[1]csiam.省略/mcm.2000網易杯全國大學生數學建模競賽題.
[2]顧俊華,盛春楠,韓正忠.模糊聚類分析方法在DNA序列分類中的應用[J].計算機仿真,2005,10(22):108-129.
[3]劉煥彬,庫在強,廖小勇,陳文略,張忠誠.數學模型與實驗[M].北京:科學出版社,2008.
[4]徐曉秋,初立元,左銘杰,譚欣欣.DNA分類方法的探討[J].大連大學學報,2001,8.
[5]岳曉寧,徐寶樹,王競波.基于聚類分析的DNA序列分類研究[J].沈陽大學學報,2008,20(6):104-106.
【關鍵詞】商業銀行 收入結構 多元統計法 MATLAB SPSS
隨著我國金融業的不斷開放和利率市場化的改革,商業銀行間的競爭日益激烈,再加上國家對商業銀行的監管不斷加強,其盈利能力受到挑戰。商業銀行傳統的存貸息差的經營模式收入逐漸減少,而國外的銀行已經開始大力開拓中間業務等非利息收入。目前我國商業銀行利息收入所占的平均比重已由2010年的80%下降到2015年的70%,而國外發達國家的商業銀行利息收入所占平均比重已經達到了40%。由此可見,加快經營模式和和收入結構的改變,已成為我國商業銀行改革的方向之一。
一、數據來源及模型假設
本文選取16家上市銀行為研究對象,對其2010到2015年年報進行整理分析,獲得所需數據。為了便于解決和研究問題,提出以下幾條假設:⑴假設16家上市銀行的年報真實可信;⑵假設上市銀行在編制年報時使用會計記賬方式等一致;⑶假設設置的變量取值都有實際意義且數據記錄準確規范。
二、根據收入結構對商業銀行的分類
(一)研究思路
首先運用主成分分析將多個指標濃縮為少量幾個指標,消除各個指標間的多重共線性,然后根據主成分得分對其用二階聚類法進行聚類分析,最后根據實際情況確定最終聚類結果。
(二)數據處理
1.主成分分析。將我們整理的2015年16家上市銀行收入結構的各項指標用SPSS對其進行主成分分析,在方差累計貢獻率大于85%的情況下,得出F1、F2、F3、F4主成分得分函數:
F1=-0.379X1+0.316X2+0.023X3-0.28X4+0.3X5+0.075X6
F2=-0.163X1+0.325X2+0.439X3+0.156X4-0.354X5-0.332X6
F3=-0.244X1-0.143X2+0.431X3+0.322X4-0.09X5+0.796X6
F4=-0.293X1+0.416X2-0.684X3+0.851X4+0.032X5+0.013X6
將各指標值分別代入4個得分函數中,就可以得出每個商業銀行的主成分得分,得分結果如表1所示。
2.聚類分析。根據表1,對其用二階聚類法進行聚類分析,先分別聚成四類、五類和六類。
下圖為三種聚類的“模型概要”和“聚類質量”圖。
“聚類質量”通過不同的顏色來表示聚類質量的“差”、“良”、“好”和“較佳”三個等級。藍色條帶表聚類質量達到的等級。由上圖可以觀察到,三種聚類結果的聚類質量良好,說明聚類成三種方式都是合理的。
下表是將16家商業銀行分別聚成四類、五類和六類的情況。
表2 不同聚類結果表
■
由表2可以看出,不論將這16家銀行分為四類、五類還是六類,我們都可以發現:工商銀行、建設銀行、中國銀行被分為一類,農業銀行、交通銀行、華夏銀行、北京銀行被分為一類,浦發銀行和民生銀行被分為一類。最終我們結合實際,將四類的結果作為本文的最終聚類結果。
(三)結果分析
第一類銀行的利息收入平均為72.58%,低于其余13家銀行2.3%。并且其他營業收入平均占總收入的4.93%,遠遠高于其余13家商業銀行4.03%。這說明國有的三大商業銀行比其他商業銀行具有較優的收入結構,這也為工商、建設和中國銀行成為全球頂尖銀行提供了依據。
第二類商業銀行是利息收入占比降低最快或營業額相對龐大的商業銀行,這四家銀行的收入結構雖然沒有第一類好,但在優化收入結構的能力上存在比較大的潛力,相信其收入結構在以后幾年會快速得到改善。
第三類商業銀行是唯一在匯兌收益中虧損的一類商業銀行,這類商業銀行都是股份制銀行,資產規模較小,但是最富創新力的銀行。但就目前來說,其收入結構是16家商業銀行中最差的一類銀行,應該得到管理層的重視。
第四類商業銀行處于四類銀行收入結構的中間水平。其中,招商銀行零售業務備受認可,平安銀行依靠其母公司平安集團快速擴張,意圖成為全能型模式銀行。此類銀行的利息占比收入是四類銀行中最低的一類銀行,甚至低于第一類國有控股銀行2.5%。但資產規模較低,其他業務收入占比僅為0.15%,遠遠低于第一類商業銀行其他營業收入平均占總收入的4.93%。
三、收入結構與資產規模和營業收入之間的聯系
(一)研究思路
本文假設收入結構與資產規模和營養結構之間是確定的函數關系,進行回歸分析,得出收入結構與資產規模和營業收入之間的函數表達式,通過對各參數的分析,可分別得到資產規模和營業收入之間對收入結構的影響。
(二)數據處理
1.回歸分析。用資產規模和營業收入作為自變量,用利息凈收入、手續費及傭金凈收入、投資收益、公允價值變動收 、匯兌收益、其他業務收入作為因變量。由于6個自變量具有不同的重要性,假定收入結構可分為利息收入和非利息收入,因此先對這6個變量分別賦予權重0.5、0.1、0.1、0.1、0.1、0.1,然后再進行回歸分析。此數據是截面數據,有可能存在異方差,所以直接采用加權最小二乘法進行回歸,回歸權數設置為殘差平方和。用EVIEWS進行WLS回歸。
①資產規模回歸方程
回歸結果如下:
Y1=-21.8235+43.817X1+195.5811X2+189.2389X3+363.1467X4 +394.9035X5+335.5921X6
T=(-1.7214)(1.6997)(1.6064)(1.6930)(1.8888)(2.8589)(1.7292)
R2=0.9999,DW=0.8,F=1094270
由回歸結果可以看出R2=0.9999,這說明模型對樣本擬合度很高;F=1094270,給定顯著性水平α=0.05通過查F分布表可知,此回歸程顯著。
②業收入回歸方程
回歸結果如下:
Y2=-16.844+33.147X1+152.972X2+166.822X3+350.225X4 +334.845X5+265.7024X6
T=(-1.1819)(1.1438)(1.1177)(1.3276)(1.6204)(2.1563)(1.2179)
R2=0.9999,DW=0.7513,F=957327
由回歸結果可以看出R2=0.9999,這說明模型對樣本擬合度很高;F=957327,給定顯著性水平α=0.05通過查F分布表可知,此回歸程顯著。
(三)結果分析
由資產規模回歸方程中可以看出,6個自變量的系數都為正,說明6個變量與銀行的資產規模呈正相關。又發現利息收入的系數最小,說明利息對銀行資產規模的邊際彈性低,無法通過增加利息收入而增加資產規模。
由營業收入回歸中可以看出,6個自變量的系數都為正,說明6個變量與銀行的資產規模亦呈正相關。和資產規模回歸方程一樣,利息收入的系數最小。因此建議商業銀行應該增大非利息收入,這樣可以優化自己的收入結構,更快的提高營業收入。
四、收入結構的預測
(一)研究思路
在前文分類的基礎上,為了代表所有的上市銀行和計算的方便性,我們挑選4類中一家銀行的收入結構進行灰色預測。因為影響收入結構最主要的因素是利息占總收入的比重,我們選取這一項作為預測對象。
(二)數據處理
灰色預測
商業銀行利息占總收入的比重近年來都呈現下降的趨勢,因此我們選取GM(1,1)灰色預測模型。
1.工商銀行。利用MATLAB軟件求出模型參數a、b,即發展灰度和內生灰度的估計值:a=0.0132,b=0.7897。由此可求得一次累加原始數列擬合序列表達式:y=59.9381-59.1405E-0.0132t,以此計算而得的數列再進行累減還原即可得灰色預測后的擬合序列,最后進行模型誤差的檢驗。
由表3可以看出,2016~2020年擬合數據與原始數據的殘差均小于0.02,相對誤差均小于2%,說明此模型可以用來預測工商銀行利息收入占總收入的比重。
利用上述建立的模型,用MATLAB直接預測2016~2020年工商銀行利息占總收入的比重數據,如下表4所示:
2.交通銀行、浦發銀行、平安銀行。采用與工商銀行相同的建模方式,對交通銀行、浦發銀行、平安銀行的利息占總收入的比重進行灰色GM(1,1)預測,預測誤差直接用圖2展示。
圖2 交通銀行、浦發銀行、平安銀行誤差與相對誤差分布圖.
由圖2可以直觀的觀察到,2016~2020年擬合數據與原始數據的殘差均小于0.02,相對誤差均小于2%,說明此模型對交通銀行、浦發銀行和平安銀行的利息收入占總收入的比重可以進行預測。
由此,我們用MATLAB求出其余三家商業銀行利息占總收入的比重數據,如表5所示:
(三)結果分析
由表4和表5可以觀察到,平安銀行的利息收入在2020年占比最低為52%,遠高于工商銀行的68.75%,說明第四類銀行,即最富有創新的商業銀行未來的發展前景樂觀。而第一類銀行即目前具有相對最優收入結構的國有大型商業銀行,其利息收入所占比重雖然在逐年降低,但其速度遠遠小于第四類股份制商業銀行。
五、總結
本文首先聚類分析了國內16家上市銀行收入結構的現狀,我們發現國有大型商業銀行現階段憑借其強大的資產規模,構建了比其它商業銀行更優的收入結構,以此成為全球頂尖銀行。而第四類股份制商業銀行雖然具有較強的創新能力,但其收入結構現狀仍不及國有大型商業銀行。然后回歸分析了商業銀行收入結構與資產規模和營業收入之間的關系,得到利息收入對銀行資產規模和營業收入的邊際彈性低,因此商業銀行欲通過增加利息收入從而增加資產規模和營業收入已是不明智的選擇。最后對4類銀行中典型的4家銀行的利息收入所占比重進行灰色預測,發現5年后富有創新的股份制商業銀行的利息收入占比已經低于國有大型商業銀行。
因此國有大型商業銀行應該加強創新,重新定位經營業務結構,向股份制商業銀行學習,與國際金融大環境接軌,效仿國際先進理念,把中間業務作為商業銀行新效益增長點。股份制商業應該保持其創新能力,繼續開展收入結構改革,擴大資產規模。國家應該逐步放松對金融的管制,讓商業銀行的業務范圍不斷擴大,逐漸形成混業經營模式,成為多功能、綜合性的“金融百貨公司”,以此達到優化收入結構的目的。
參考文獻
[1]邢學艷.我國商業銀行收入結構的實證分析[J].經濟師,2011(9):181-183.
[2]黃國妍.商業銀行收入結構與銀行風險研究[D].華東師范大學,2014.
[3]黃宏運,呂石山,朱家明.空氣污染的計量評估方法[J].陰山學刊(自然科學版),2016,04:1-5.
[4]楊桂元,朱家明.數學建模競賽優秀論文評析[M].中國學技術大學出版社,2013.9.第一版.
[5]馮巖松.SPSS 22.統計分析應用[M].北京:清華大學出版社,2015.
[6]楊桂元.數學建模[M].上海:上海財經大學出版社,2015.
[7]孫亞靜,辛雪嬌,張彥紅.中國上市商業銀行經營績效分析[J].產業與科技論壇,2013,13:26+226.
[8]張暢.我國股份制商業銀行競爭力比較分析[J].現代商貿工業,2016,07:54-56.
關鍵詞 葡萄酒評價 符號秩檢驗 灰色聚類分析
中圖分類號:TS262.6 文獻標識碼:A DOI:10.16400/ki.kjdkz.2015.12.066
Abstract This paper established a signed rank test and gray clustering model wine evaluation. In order to get each group wine-tasting each wine sample an objective evaluation score for each group of wine-tasting wine samples for the evaluation scores do mean to give the wine sample overall score, and then the evaluation results of the two groups for wine-tasting poor, made the difference to get the data signed rank test, and finally the use of SAS software to calculate the signed-rank test = 0.0085, and less than the significance level = 0.05, it does not accept the original hypothesis that the evaluation results of two wine-tasting are significant differences; For the question of confidence, and we each wine-tasting wine samples ratings for variance analysis, were calculated first and second set of score results of variance and were 1409.3,821.1, easy to know and much larger than the first group variance The second group, so the evaluation results of the second group is more stable and more reliable. The second group of wine-tasting red wine for the evaluation of the results will be classification, then using gray cluster analysis of the samples were graded red grapes, combined with its wine is quality, both in the grape samples wines level, to determine the level of the wine.
Key words wine evaluation; signed rank test; grey cluster analysis
1 問題重述
1.1 研究課題背景
針對主觀性評價問題和多目標問題,由于其繁瑣性和主觀性,對我們來說,很難透過現象看本質,雖然層次分析法在PHP中可以通過得分函數構成。但就其缺點而言,我們認為對這類模糊性問題采取多目標分層次的解決方式,而利用統計分析里的方差分析和灰色關聯度分析能夠合理處理此類問題。對于未來預測性和多目標問題可以得到很好的預見性效果。同時也為多領域多目標問題中提供一個較好的模型。
本文的模型也可適當地對研究人事、招聘及高校評選的處理方法有所幫助和提高。
2 問題分析
因為兩組品酒員對酒樣的評分是成對比較,且對評分并不要求成對數據之差服從正態分布,只要求對稱分布,故我們采用統計學中Wilcoxon符號秩檢驗來解釋兩組品酒員對葡萄酒的評價有無顯著性差異。
假設兩組品酒員對葡萄酒的評價有顯著性差異,就需要確定哪組品酒員的評價更可信,為此對品酒員評價數據做置信度分析――方差分析,由于葡萄酒評價數據無法進行復測,就要利用matlab軟件的信度分析功能,分別對第一組和第二.組的評分進行可信度分析,最后通過圖形直觀的反映結果。
3 模型建立
3.1 符號秩檢驗模型的建立
將兩組評酒員分別看作兩個整體、,對每個紅葡萄酒樣品進行評價,對每個紅葡萄酒樣品的評價結果通過組內每一位品酒員的評分的均值 = 來刻畫,同樣對每個紅葡萄酒樣品的評價結果用均值 = 來刻畫,從而得到兩組評酒員對每種樣品酒的評價結果,建立兩組評酒員對紅葡萄酒的評價。
對同一酒樣品得到一對數據。可知兩對數據之間差異是由各種因素,如葡萄酒的外觀、香氣、口感、材料成分等因素引起的。由于各酒樣品的特性有廣泛的差異,就不能將第一組評酒員對27 種紅葡萄酒的評價結果看成是同分布隨機變量的觀測值。因而表1中第一行不能看成是一個樣本的樣本值,同樣第二組的數據也不能看成是同一個樣本的樣本值,而同一對中兩個數據是同分布隨機變量的觀測值,他們的差異是由于兩組品酒員的水平引起的。為鑒定他們的評價結果有無顯著性差異,可使用基于成對數據的逐對比較法。以紅葡萄酒樣品為例,有27對相互獨立的評價結果:(,),(,),…,(,),令 = , = ,…, = ,則,,…,相互獨立,所以我們對,,…,進行單因素的符號秩檢驗。
再對和中的元素分別求和得到方差和,用方差和對比得到對于同一批紅葡萄酒兩組的不同評價水平。方差和小的穩定性好,相對來說比另一組的評價結果更可信。
3.3 灰色聚類分析模型的建立
在附件2中我們可以得到,對于紅葡萄酒,有對應的30個一級指標,為了使結果更具有客觀性,我們將葡萄酒的質量也作為一級指標。對于這31個一級指標,其中多酚氧化酶活力、褐變度、總酚、固酸比、出汁率這5個指標與葡萄酒質量呈負相關,其余26個指標都與葡萄酒質量呈正相關。
4 模型求解
4.1 符號秩檢驗模型的求解
對于該模型,我們首先作出同一酒樣品分別由兩組品酒員,得到的評價結果之差,列于表1的第三行。根據建立模型的需要假設
: = 0,:≠0
我們取 = 0.05,并采用SAS軟件編程處理,具體程序見附錄程序1。
在SAS中運行的結果如圖1:
結果顯示符號秩檢驗對應的P為0.0085,小于顯著性水平0.05,故不接受原假設,即認為這兩組品酒員分別對紅葡萄酒的評分有顯著性差異。
4.2 方差分析模型的求解
運用MATLAB軟件編程求解,得到,。
對于紅葡萄酒而言:元素的和為1409.3,元素的和為821.1。由此可以得出,第一組的方差和遠遠大于第二組。
4.3 灰色聚類分析模型的求
我們先對紅葡萄酒質量的評價結果按評分從小到大排列得到表1:
根據等級分級標準:高級葡萄酒:9、23、20;上等葡萄酒:3、17、2、26、14、19、5、21、4、24、27、22;中等葡萄酒:16、10、13、1、12、25、6、15、7、8;下等葡萄酒:18、11。
對于每類葡萄中的元素,結合該葡萄樣本所釀造的葡萄酒的級別,來確定該葡萄的級別。然后再根據每類葡萄中葡萄樣本級別的比例來確定該類葡萄的級別。對應葡萄酒的等級分類,我們根據葡萄的聚類分析也將葡萄分成高級、上級、中級、下級。
紅葡萄的分類結果:高級紅葡萄:9、23、4、20;上級紅葡萄:3、17、12、15、18、24、5、19、13、21、2、26;中級紅葡萄:10、16、27、1、14、25、6、7、22、8;下級紅葡萄:11。
參考文獻
關鍵詞數據挖掘 教學模式 合作式教學
中圖分類號:G642文獻標識碼:A
數據是無處不在的。當飛速增長的數據給我們帶來方便和便捷的同時,也將我們推入浩瀚的數據海洋。廣泛用于商業和科學領域中的自動數據收集設備每小時能夠產生幾TB規模的數據,人們面臨的問題已經不再是沒有充分的信息可選擇,而是如何有效利用如此龐大的數據,并且找到蘊含于這些信息之中的有價值的知識。由于數據分析師的匱乏,導致了很多領域出現了“數據豐富而知識匱乏”的現象,因而在信息計算科學、統計學等本科專業中開設數據分析課程是非常有必要的。
數據分析就是分析和處理數據的理論和方法,從數據中獲得有用的信息,其內容豐富,方法眾多,最大的特點就是“讓數據說話”。該課程設計的分析方法眾多,如:方差分析、非參數統計、多元統計分析、判別聚類分析、時間序列分析等。由于計算機編程的復雜及數據的難以采集,這些分析方法在課程中大多處于理論教學,使得本科階段的學生很難接受。隨著計算機及統計軟件(如SAS,SPSS)的普及,大大的減少了對程序能力的要求,隨著大量數據被數據采集者開放(如金融數據庫),使學生有可研究的對象,從而使得我們在大學本科階段開設數據分析課程成為可能,但需要合適的教學模式以適應本科階段的教學。
由于數據分析的方法眾多,對不同學科的數據又會有其特殊的分析模型,在一門課中介紹全部是不可能的,透徹的介紹每種方法的原理更是不可能的。基于學生的數學和計算機基礎,從實際問題出發,介紹了常用的方差分析,回歸分析,主成份分析、判別和聚類分析等方法,以方法綜合應用為主,理論為輔,運用SAS軟件來實現。在教學過程中采用了以下幾個模式,并達到了較好的教學效果。
1 選用SAS軟件為課程配套工具軟件
在數據分析課程的教學中,算法實現對于本科生來說難度太大,該階段的學生只學過C語言,很多分析方法如果用C語言來編程完成,難度將無法想象。我們要培養數據分析師,而不是高級程序員。隨著統計軟件在全球的流行,我們選取了SAS軟件作為工具,結合數據分析課程的教學。通過簡單的編程即可實現所有數據分析方法,并且應用多樣化,功能強大。但由于SAS入手較難,為了不影響數據挖掘可能的教學時間,我們為該專業學生準備了兩周實踐課程,專門進行SAS的教學,取得了很好的效果。在數據分析課程中,每一種方法只需介紹基本思想,簡單原理,計算步驟及SAS系統中對應的模塊和程序說明。例如在介紹方差分析時,同時介紹SAS系統中ANOVA和GLM過程,利用SAS軟件可迅速得到各種統計量,學生只需通過結果做相關的分析結論,簡化繁瑣計算,節省課時,提高了學生的學習興趣。
2 引入合作式教學,加入討論課模式
數據分析課程當中,理論知識的傳授和應用能力的培養歸根結底是為了解決實際問題。各種分析算法,軟件都是幫助解決問題的一個工具。如何讓學生去面臨實際問題,并通過收集數據,建立模型,求解模型從而解決問題,這才是我們希望學生真正得到的能力。所以,我們引入的合作式教學模式。每次討論課給定特定的專題,學生以組為單位收集相關資料數據,并進行問題分析,選定數據分析方法并建模求解,對得到的結果進行相關的解釋,最后進行合理性分析。如對某產品在各個超市的銷售量的分析,判斷地區是否對銷售量有影響。整個過程從灌輸式的教學模式轉變為引導式的教學模式,學生在討論課當中占據主導地位。在分析問題得到結論后,以小組為單位進行總結匯報,由組外同學進行點評討論,教師只做啟發,指導工作。這種教學模式,不僅大大提高了學生的主動性,調動的學生思維,提高解決問題的實際能力,表達、溝通及團隊合作能力,而且課堂氣氛活躍,參與面廣,討論中相互發現問題,糾正錯誤。
3 適當介紹方法產生的背景、原理、重點介紹方法的綜合應用
適當介紹方法產生背景和原理,可加深學生對分析方法的理解,深入了解方法的適用領域,所能解決的問題,與實際相結合,從而提高學生的學習興趣。但我們更應該把分析方法綜合應用作為首要教授的方面,即如何讓學生把所學的數據方法正確的應用到實際問題當中。我們應該從以下幾個方面入手:
(1)介紹分析方法的基本背景和原理,講清應用范圍。教學中,我們可簡單介紹分析方法的基本思想和計算方法,但其具體能解決何種問題必須講清。如:聚類分析和判別分析兩類問題,都是用于事物的分類,但兩者的本質是完全不一樣的。判別分析中的類別是已知的,并且類別的屬性或已知,或間接的給出(通過一組已經分類的樣本),根據已知的知識對現有未知的樣本進行分類。而聚類分析則體現的是“物以類聚”的思想,將相似性強的樣本歸為一類,其中類別的特點,數量在聚類完成前是完全不知道的。如醫生看病判斷病情屬于分類問題,而對新的疫情進行類別區別則是屬于聚類問題。利用實例使學生區分兩種方法所能解決的問題以及兩種方法所處理的數據的區別。
(2)融入數學建模思想,加強分析方法的應用。每個分析方法從理論到實際應用都需要一個過程。如果將一個實際問題轉變為一個數學能解決的問題,就需要運用數學建模的思想,建立數學模型解決實際的問題。如:一個城市的安全程度往往可以通過這個城市的犯罪率來體現,但是犯罪種類之多使得我們無法通過某種犯罪次數來得出結論。這就使得我們要建立主成分分析模型,運用主成份分析方法,將現有的多種犯罪數據進行線性組合,得到幾個主要的犯罪指標――總體犯罪率,重度犯罪比例等等。利用少量的指標去體現原來多個指標所體現的大部分信息,達到反應總體狀況的效果。通過簡單的、學生感興趣的例子,引入主成份模型的原理,介紹分析方法,使其感受到主成份分析的重要性和必要性。通過各個主成分依次求出,其反應出的總體信息不斷加大,還可引入貢獻率和累計貢獻率得概念,使學生明確如何合理選擇主成分。比如當前m個主成份的累計貢獻率達到85%的時候,就可認為這m個主成份能夠反應總體的絕大部分信息。重點介紹各個統計量在當前模型中的含義,作用及對應關系,使得學生能夠使用分析方法在實際中加以應用。
(3)加強介紹方法的步驟、軟件實現及結果解釋。建立模型后如何利用軟件解決模型是學生必須掌握的技術。任何數據分析算法,都不太可能利用人工計算完成。由于我們選取了SAS作為分析軟件,所以在課堂中,介紹完原理和數學模型后,都會給出相關實現的步驟。SAS編程相對簡單,分析過程大多是PROC步完成,其針對每種分析方法都會有相關的過程函數,并且會有與算法對應的輸入參數。學生只要模仿調用相關過程,并對結果進行相關解釋即可實現相應分析方法的應用。比如利用SAS程序進行回歸分析簡單例子:
proc regdata= study.bclass;
modelweight = height /r clm cli dw;
run;
其中,模型參數r表示要輸出殘差分析,包括因變量的觀察值、由輸入數據和估計模型來計算的預測值、殘差值、標準誤差、學生化殘差、COOKD統計量等。通過計算可得到各個相關統計量的值,學生無需涉及計算過程,只需知道計算得到的各個統計量所代表的含義,并會對結果進行解釋。只有學會對結果的解釋分析,才能解決真正的實際問題。
通過教學實踐,我認為將統計軟件作為配套工具和數據分析方法結合教學,可以起到相輔相成的作用,加入合作式教學模式,開展討論課不僅學生綜合能力得到了提高,而且學生團隊合作意識得到了加強。同時,教師必須擔任好自己的角色,要精心設計教學中的每個細節,如分析方法原理的引入,討論專題的選擇等,這樣才能起到良好的教學效果。
注釋
紀希禹. 數據挖掘技術應用實例[M]. 機械工業出版社,2009.
關鍵詞:聚類分析;資產管理;獨立學院
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)03-0443-03
固定資產管理是高校管理系統中的重要組成部分。高校資產管理部門參與了固定資產申報、采購、驗收、維修、報廢等整個生命周期。高校資產管理部門既能影響學院層面的決策,又直接參與系部層面的管理。在全面貫徹落實《國家中長期教育改革和發展規劃綱要(2010-2020年)》精神和充分發揮教育統計對宏觀決策的服務作用的大形勢下,在高校學院等一級組織機構層面的管理,有國家的各項指標參數作為辦學管理依據,如《普通高等學校基本辦學條件指標》、《中國教育評價與監測統計指標體系》等。但資產管理部門在對教學系部等院校內部二級組織機構進行管理決策時,卻缺少較為成熟的輔助決策模型或指標體系。我們資產管理部門在管理決策的過程中多以經驗為主導。在高校多年的改革探索運行的進程里,資產管理部門積累了大量的數據,如果能從已有的相關統計數據里挖掘出更多有用的知識,我們管理決策工作就多了一層科學性的保障,甚至能發現工作里部分潛在的異常,防范資產管理工作中的一些常見問題。比如實驗室維修經費的管理、設備申購的審批,從局部來看,每次報告申請都有其內在原因和必要性。但如果縱橫對比來看,申購物品是否和普遍的投資規律相符,是否和同類型部門的運行規律相符?本文嘗試通過對某學院2012-2013學年度各系部資產管理的相關指標參數進行聚類分析挖掘出一些有用的知識,實現同類系部間管理經驗的借鑒。
1 管理對象指標的選取
我們的指標選取參考了教學狀態評估、獨立學院評估的參數和實際工作經驗。針對一個部門,我們選擇六個參數包括設備數量、學生數、教職員工數、耗材費維修費、大型精密儀器設備總額、實驗人時數。
該分類問題原始數據矩陣為:
2 數據標準化處理
當[m]個特征變量(指標)觀測值具有不同的數量級和不同的測量單位時,常需對數據進行預處理。標準化后的數據為[x′ik=xik-xkSk],[i=1,2…n,k=1,2…m],其中[xk=1ni=1nxik]([xk]表示變量[xk]的樣本均值),[Sk=1n-1i=1n(xik-xk)212]([Sk]表示變量[xk]的樣本標準差)。
3 基于Ward法的系統聚類
用[G]表示類,設[G]中有[k]個樣本元素,這些元素用[i,j]表示。
定義 [T]為一給定的閾值,如果對任意的[i,j∈G,]有[dij≤T]([dij]為[i,j]的距離),則稱[G]為一個類。
本文系統聚類法(hierarchical clustering method)的實施包含下列步驟:
①對系部相關數據進行變換處理;
②構造9個類,每個類[Gt]只包含一個樣本[i];
③計算9個樣本[dij]兩兩間的距離 ;
④合并距離最近的兩類為一新類[Gp];
⑤計算新類與當前各類的距離,若類的個數等于1,轉到⑥;否則回④;
⑥生成樹狀聚類圖;
⑦根據設定的閾值[T]判斷類的個數,得出分類結果。
在算法第⑤步需要計算類與類之間的距離,常用的有最短距離法、類平均距離法、重心距離法等。我們采用的是起源于方差分析的Ward法(也稱離差平方和)。較好的分類可以達到樣品間離差平方和較小,類與類之間的離差平方和較大。設將[n]個樣品分成[k]類;
[G1,G2,…,Gk]用[xit]表示類[Gt]中第i個樣品,[nt]表示類[Gt]中樣品個數,[xt]是類[Gt]的重心,則整個類[Gt]中的離差平方和是[L=t=1ki=1nt(xit-xt)′(xit-xt)]。
我們用統計分析軟件SPSS 19.0,平方歐氏距離作為相似性測度,類間距用Ward法定義。生成的聚類圖表如表3,圖2。
由以圖2分類結果可以看出,分為4~5類較為合適,同類系部之間如計算機系與金融貿易系的資產管理策略可以相互借鑒,同類系部的資產管理問題,也應該引起共同的關注并引以為戒。我們的工作實踐表明,該分類模型可以幫助我們防范同類系部可能遇到的部分相似問題,減少了資產管理工作中的盲目性,為管理決策提供了科學性的參考。
4 結束語
聚類分析作為無監督學習的一種重要形式,具有廣泛的應用前景。高校系部等二級機構的資產管理決策目前較多依賴以往經驗,基于系統聚類法的資產管理決策,讓我們獨立學院“摸著石頭過河”的探索多一些科學的依據。但我們的模型還有很多不足和待解決問題,比如樣本指標的合理性,模型能否推廣到行政機構、后勤部門等非教學二級機構。另外針對同一高校探討還可以從同一時間段不同學院系部的情況聚類,和同一學院系部不同時間段聚類分析,需要我們進一步深度收集整理相關數據。
參考文獻:
[1] 何曉群.多元統計分析[M].3版.北京:中國人民大學出版社,2012.
[2] 王宏洲,李學文.數學建模方法進階[M].北京:清華大學,2013.
關鍵詞:化學計量學;中藥學;選修課程
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2012)12-0193-02
中藥學專業主要開設中藥學、中藥鑒定學、中藥資源學、中藥藥理學、中藥藥劑學、中藥化學、中藥制劑分析等必修課程,培養具備中藥學基礎理論、基本知識、基本技能以及與其相關的中醫學、藥學等方面的知識和能力,能在中藥生產、檢驗、流通、使用和研究與開發領域從事中藥鑒定、設計、制劑及臨床合理用藥等方面工作的高級科學技術人才[1]。然而,中藥在現代化研究過程中,具有藥效物質不明、作用機理不請、質量可控性差等問題,隨著先進儀器和技術的引入和發展,給中藥研究帶來了有利的手段,但同時也造就了復雜的數據信息需要處理的問題。化學計量學方法非常適合于中藥復雜體系研究中大量數據有效信息的提取,將化學計量學引入中藥復雜體系研究可以發揮重要作用,也為中藥的進一步研究提供了新的思路、方法和手段。筆者認為,既然現時化學計量學方法在中藥研究中已得到了廣泛應用,那么中藥學專業的人才培養就應該切合實際需要,適時地為本科生特別是研究生開設《化學計量學》選修課程。
一、化學計量學的學科內涵
國際化學計量學學會(ICS)定義了化學計量學(Chemometrics)的學科內涵:“化學計量學是一門通過統計學或數學方法將對化學體系的測量值與體系的狀態之間建立聯系的學科”。它應用數學、統計學和其他方法及手段(包括計算機技術),選擇最優試驗設計和測量方法,并通過對測量數據的處理和解析,最大限度地獲取有關物質系統的成分、結構與其他相關信息[2]。化學計量學在上世紀80年代開始有了較大的發展,各種新的算法層出不窮,基礎及應用研究取得了長足進展,迅速成為化學與分析化學發展的重要前沿領域。
二、化學計量學在中藥研究中的應用
中藥是十分復雜的化學量測體系,具有化學成分眾多、藥效物質不明等特點,隨著先進量測儀器與技術的應用,中藥復雜化學體系得以逐漸闡明,但隨之而來的是獲得的海量量測數據亟需整理挖掘。此時,要從錯綜復雜的海量數據中更加有效地提取出有用信息,必須借助于化學計量學的方法與技術,將化學計量學引入中藥復雜體系研究,必然可以發揮重要作用,也為中藥的進一步研究提供了新的思路、方法和手段。下文簡述了幾種化學計量學方法在中藥研究領域中的一些典型應用。
1.主成分分析法(PCA)。PCA旨在運用降維思想,把給定的一組相關變量通過線性變換,轉化成另一組彼此正交的低維變量。PCA被廣泛用于光譜、色譜及其聯用指紋圖譜的模式識別,如徐永群等[3]測量了黃芩的紅外光譜數據,在此基礎上應用PCA法進行聚類分析,將來自15個產地的黃芩樣品分為6個產區,相同產區內樣品的化學成分相似,以此提出了黃芩藥材質量評價的方法。
2.聚類分析法(CA)。CA是對一組尚無明確分類的樣本按相似程度的大小加以歸類,屬于無監督學習方法,其目標是在模式空間中找到客觀存在的類別。張銘光等[4]通過測定廣藿香裂解色譜指紋圖譜,應用算術平均最小法對13張指紋圖譜進行了聚類分析,總結出樣品間相關系數與產地的關系,此方法不以廣藿香醇、廣藿香酮等有限成分的含量作為主要指標,可作為中藥廣藿香的質量控制方法。
3.判別分析法(DA)。DA則屬于一種有監督學習方法,它利用一組已知樣本為訓練集,經訓練后得到一個判別模型,從而對未知樣本進行分類。DA法可分為參數法和非參數法。張亮等[5]采用RP-HPLC法測定了六味地黃丸缺味藥模擬方的浸出物,借助Bayes判別建模,取得了滿意的識別效果。蘇薇薇等[6]分析了不同產地、不同部位的化橘紅樣品的HPLC量測數據,借助DA法可快速、準確地對樣品進行分類。
4.人工神經網絡(ANN)。ANN是一種通過模仿人中樞神經系統神經元之間相互聯系的方式來進行計算的信息處理技術。它借鑒人腦神經系統處理信息的過程,以數學網絡拓撲結構為理論基礎。其結構和算法已有多種,包括BP(反向誤差傳播)、ART(自適應神經網絡)、MDL(自適應線性機)、FANN(模糊神經網絡)等,其中以BP網絡在中藥質量評價中應用得最為廣泛,如喬延江等[7]借助ANN法建立了中藥蟾蜍的質量評價方法。
5.支持向量機(SVM)。SVM是建立在統計學學習理論和結構風險最小化原理基礎上的一種新型機器學習算法,具有小樣本學習和泛化能力強的優點。其基本原理是把訓練集數據從輸入空間非線性地映射到一個高維特征空間,然后在此高維空間中求解凸優化問題,得到唯一的全局最優解。張錄達等[8]測定了中藥大黃樣品的近紅外光譜數據,結合SVM法建立了大黃樣品真偽識別模型,對訓練集與測試集的檢驗精度分別達到了100%和96.77%。
本文簡要綜述了化學計量學方法在中藥研究中的一些典型應用,而且隨著化學計量學理論和方法的不斷深入發展,其在中藥研究中的應用必將越來越廣泛。因此筆者相信,在中藥學專業本科生尤其是研究生的教學中,開設《化學計量學》選修課程,拓寬學生的知識面,加強培養他們的數據解析能力,具有重要的實踐意義和教學價值。
參考文獻:
[1]梁生旺.中藥制劑分析(第二版)[M].北京:中國中醫藥出版社,2007.
[2]梁逸曾,俞汝勤.化學計量學[M].北京:高等教育出版社,2003.
[3]徐永群,孫素琴,馮學峰,等.黃芩產區紅外指紋圖譜和聚類分析法的快速鑒別研究[J].光譜學與光譜分析,2003,23(3):505-505.
[4]張銘光,袁敏,袁鵬,等.廣藿香裂解色譜指紋圖譜及其聚類分析[J].中草藥,2003,34(8):749-752.
[5]張亮,劉展鵬.六味地黃丸缺味藥的Bayes法和PRIMA法定性識別研究[J].中國中藥雜志,2000,(1):29-32.
[6]蘇薇薇,林海丹,方鐵錚,等.中藥化橘紅的模式識別——計算機辨識研究J].中藥材,2002,25(8):554-561.
[7]喬延江,吳剛,王璽,等.中藥蟾蜍質量的人工神經網絡化學模式識別研究[J].分析化學,1995,23(6):630-634.
數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘的過程也叫知識發現的過程。
二、數據挖掘的方法
1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。
3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。
5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。
6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結束語
目前,數據挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數據挖掘技術的深人研究,數據挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。
參考文獻:
蘇新寧楊建林鄧三鴻等:數據挖掘理論與技術[M].北京:科學技術文獻出版社,2003
DM是數據庫知識發現(knowledgediscoveryindatabase,KDD)不可缺少的一部分,而KDD是將未加工的數據轉換為有用信息的整個過程(圖1),包括一系列轉換步驟,從數據的預處理到DM的后處理[1]。其最早是在1989年舉行的第11屆美國人工智能協會(americanassociationforartificialintelli-gence,AAAI)學術會議上提出的,是近年來隨著人工智能和數據庫技術的發展而出現的一門新興技術[4],其開發與研究應用是建立在先進的計算機技術、超大規模數據庫的出現、對巨大量數據的快速訪問、對這些數據應用精深的統計方法計算的能力這4個必要條件基礎上的,以數據庫、人工智能和數理統計三大技術為支柱[5]。
2DM的基本模式及在臨床醫學中的應用
DM的任務通常有兩大類:預測任務和描述任務。預測任務主要是根據其他屬性的值,預測特定屬性的值,主要有分類(classificaion)和回歸(regression)2種模式。描述任務的目標是導出概括數據中潛在聯系的模式(相關、趨勢、聚類、軌跡和異常),主要有關聯分析、聚類分析、異常檢測3種模式[1]。
2.1預測建模(predictivemodeling)
涉及以說明變量函數的方式為目標變量建立模型。有2種模式:分類和回歸。分類是用于預測離散的目標變量。在臨床醫學中,疾病的診斷和鑒別診斷就是典型的分類過程。Melgani和Bazi[6]以美國麻省理工學院的心律失常數據庫的心電圖為原始數據,采用不同分類模型,對心電圖的5種異常波形和正常波形進行分類。回歸是用于預測連續的目標變量。回歸可廣泛應用于醫學研究中如醫療診斷與預后的判別、多因素疾病的病因研究等。Burke等[7]采用各種回歸模式對影響乳腺癌患者預后的因素進行回歸分析。
2.2關聯分析(associationanalysis)
用來描述數據中強關聯特征的模式,用于發現隱藏在大型數據集中的令人感興趣的聯系。所發現的模式通常用蘊函規則或特征子集的形式表示。關聯分析主要應用于DNA序列間相似搜索與比較、識別同時出現的基因序列、在患者生理參數分析中的應用、疾病相關因素分析等[5]。有學者對37000例腎病患者進行了追蹤觀察,監測腎小球過濾率、尿蛋白水平和貧血狀況,結果發現以上3種生理指標中的任何一項異常都伴隨著心臟病發病率的上升,這種腎病與心臟病“關聯”的現象可發生在腎病的早期階段[8]。
2.3聚類分析(clusteranalysis)
旨在發現緊密相關的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似。聚類分析在醫學領域中主要用于DNA分析、醫學影像數據自動分析以及多種生理參數監護數據分析、中醫診斷和方劑研究、疾病危險因素等方面[5]。羅禮溥和郭憲國[9]利用聚類分析對云南省25縣(市)現有的112種醫學革螨的動物地理區劃進行分析,發現云南省醫學革螨的分布明顯地受到自然地理區位和特定的自然景觀所制約。
2.4異常檢測(anomalydetection)
用來識別其特征明顯不同于其他數據的觀測值。這樣的觀測值稱為異常點(anomaly)或離群點(outlier)。異常檢測的目標是發現真正的異常點,避免錯誤地將正常對象標注為異常點。換言之,一個好的異常檢測器必須具有高檢測率和低誤報率,其主要應用于檢測欺詐、網絡攻擊、疾病的不尋常模式等[2]。
3DM的方法及研究趨勢
在DM算法的理論基礎上,DM常用方法:(1)生物學方法包括人工神經網絡、遺傳算法等;(2)信息論方法包括決策樹等;(3)集合論方法包括粗糙集理論、近鄰算法等:(4)統計學方法;(5)可視化技術等方法。DM經過十幾年的蓬勃發展,很多基本算法已較為成熟,在其基礎上進行更加高效的改進和算法提高顯得比較困難,如傳統的頻繁模式和關聯規則挖掘在近幾年的國際著名會議和期刊上已不再作為重要的研究主題[10]。近年來眾多國內外知名學者相繼探討DM的最新方向。Yang和Wu[11]匯總形成了DM領域十大挑戰性問題報告;Agrawa等[12]探討了DM的現狀并展望了未來的發展方向,Piatetsky-shapiro等[13]討論了DM新的挑戰性問題,并主要探討在生物信息學(bioinformatics)、多媒體挖掘(multimediamining)、鏈接挖掘(1inkmining)、文本挖掘(textmining)和網絡挖掘(webmining)等領域所遇到的挑戰。與國外相比,DM在國內的研究和應用始于20世紀90年代初,主要是對DM方法的介紹和推廣,20世紀90年代后期和21世紀初進入蓬勃發展階段,當前DM已成為大型企業進行經營決策時所必須采用的方法,證券和金融部門已將DM作為今后重點應用的技術之一。有學者以HIS和LIS數據庫信息為數據源,人工神經網絡為工具,概率論為依據,對常規檢驗結果和質譜指紋圖數據進行DM并應用于臨床實踐[14-16]。
4臨床醫學DM的特點
DM作用于醫學數據庫跟挖掘其他類型的數據庫相比較,具有其自己的特點。以電子病歷、醫學影像、病歷參數、化驗結果等臨床數據為基礎建立的醫學數據庫是一個復雜類型數據庫,這些臨床信息具有隱私性、多樣性、不完整性、冗余性、異質性和缺乏數學性質等自身的特殊性和復雜性,使得醫學DM與常規DM之間存在較大差異。醫學DM方法包括統計方法、機器學習方法、神經網絡方法和數據庫方法等。將這些不同的挖掘方法應用到疾病的診斷、治療和預后分析以及醫療管理等各個領域,從疾病的診治、醫療質量管理、醫院管理、衛生政策研究與醫療資源利用評價等方面去獲取諸如概念、規律、模式等相關知識;用于對疾病進行分類、分級、篩選危險因素、決定治療方案和開藥數量等[5]。
關鍵字:電力系統;人工神經網絡;信號處理
1 引言
基于電力變壓器故障診斷方法對提高電力系統運行的安全性和可靠性具有重要意義,同時也具有重要的理論價值和廣闊的工程應用.基于智能信息處理方法的關鍵技術研究在研究分析智能信息處理理論關鍵技術的基礎上,提出了以智能信息技術處理理論為主線的電力變壓器故障智能診斷技術方案來實現基于云模型白化權函數的灰聚類分析和改進的加權灰靶理論相結合的電力變壓器狀態評估模型,通過先驗知識和實驗分析共同優化云模型參數結構,提高電力變壓器故障評估的實用性與科學性.
2 基于云模型綜合應用研究
基于云模型是指一種描述非確定性不確定性數學方法應用在模糊數學和統計學的基礎與模糊性和隨機性相結合共同構成定性描述和定量描述的相互映射關系,其中,模糊隸屬函數是模糊理論的基石,是一個重要的概念,但是在工程實踐中如何確定模糊隸屬度函數卻沒有公認的方法與不確定性問題的隨機性和模糊性來彌補模糊理論的不徹底性缺陷,因此提出了隸屬云平臺、云技術與云模型等概念和理論體系結構.
2.1 基于電力變壓器故障云模型研究
基于電力變壓器故障云模型數字運算期望值、熵和超熵表示.期望值Ex是所有云滴電力故障所在數域的重心位置,反映了這個定性概念的量在數域上的坐標.熵En是表示定性概念亦此亦彼性的變量,反映了數域中可被語言值接受的數據范圍,同時還反映了在數域中的云滴電力故障能夠代表這個語言值的概率.超熵He反映每個數值代表這個語言值確定性的凝聚性和云滴的凝聚程度.
對于電力變壓器控制系統故障存在雙邊約束的指標,電力變壓器故障云模型的期望值根據公式⑴計算=⑴
根據正態分布的原則, 電力變壓器故障云模型的熵En按公式(2)計算:
⑵
超熵He是一個常數,可根據具體指標的不確定性和隨機性進行調整.
3 基于灰色系統理論應用在智能信息電力變壓器故障研究
3.1 灰色系統理論介紹
基于灰色系統理論是指以GM(1,1)模型為基礎的預測,灰色系統模型是一階微分方程動態模型.而智能信息電力變壓器故障不確定性因素與不確定性全因素多傳感器數據信息融合處理關鍵技術方法,應用于時間序列預測數據.
3.2 基于灰色智能信息電力變壓器故障模型建模算法研究
3.2.1 設所要智能信息電力變壓器故障預測系統的某項指標的原始數據列為
3.2.2對原始數據列做一次累加,先生成(1-AGO),再生成(3.2.1)新數據列,即
3.2.3 對生成的數據列’建立相應的微分方程式中.為發展系數,為內生控制系數.
3.2.4解步驟3.2.3)中方程式,可得其相應的時間響應模型為:
3.2.5 設方程的參數的向量:式中B為累加生成矩陣,為向量,二者的構造分別為:
,
式中為第年的原始數據;為第年的一次累加.
3.2.6 令t=1,2,…,n-1,由4)中式可得的值.其中是一次累加量,還需求出還原值,即
3.2.7 求出原始智能信息電力變壓器故障數據的還原預測值與實際數據值之間的殘差值和相對誤差q(t),進行殘差檢驗
3.2.8 進行關聯度R檢驗;后驗差C檢驗和小誤差概率P檢驗.
3.2.9 如果殘差檢驗、關聯度檢驗和后驗差都能通過,則可以用所建立的智能信息電力變壓器故障模型進行預測.
3.4 基于灰色神經網絡智能信息電力變壓器故障模型研究
⑴ 灰色理論模型.灰色系統建模使用最多的是GM(1,1)模型,它是對經過一次累加生成的數列建立的模型,其灰微分方程為(,為待定參數).⑶
⑵ 白化GNNM(1,1)灰色神經網絡模型.設參數已經確定,對式⑶求解可得到其時間響應函數:⑷
白化微分方程⑶的參數的思路是:將方程⑶的時間響應函數⑷映射到一個智能信息電力變壓器故障BP網絡中,對這個BP網絡進行訓練,從訓練后的BP網絡中提取出相應的方程系數,從而得到一個白化的微分方程,進而利用此白化的微分方程,對系統進行深層次的研究,或對此微分方程求解.要將⑷式映射到BP網絡中,對其做如下變換,對等式兩邊同除以1+exp(-ak),可得
=
= ⑸
經過變換后可將⑸映射到BP網絡中,其結構如圖1所示.
相應的BP網絡權值可進行如下賦值(令
(6)
的閾值設為,由⑸得,多層神經元激活函數為Sigmoid型函數: ⑺
該函數是S型函數,存在一個高增益區,能確保網絡達到穩定態,其它層激活函數取線性的.經過⑹式賦值及BP網絡激活函數確定為⑺式后,可對網絡中各個結點計算為:
⑻
LD層僅1個節點,其作用只是對進行y1放大,使之與式⑶相符.考慮到灰色BP網絡與式①的對應關系,因此在設計灰色BP網絡學習算法時要注意以下幾點:1)學習算法采用標準BP算法,由于有一些神經元所用的激活函數為線性的,因此計算誤差時要利用線性函數的求導.2)由,故在BP網絡訓練過程中,權值始終保持不變.3)直接由輸入與、得到,并且連接只是將誤差前向傳遞到第3層,其本身不修改.精度比較可知,用神經網絡輔助的灰色建模要遠遠優于傳統的灰色模型方法.
4 基于人工神經免疫系統應用研究
在人工免疫系統應用是生物必須防御機制與免疫功能的器官、組織、細胞和免疫效應分子及其基因組成通過分布在全身的各類淋巴細胞識別和清除侵入生物體的抗原性異物,可以保護機體抵御病原體、有害的異物以及癌細胞等致病因子的侵害.基于生物的免疫系統是一種高級的智能信息處理控制系統數據[2].而人工免疫系統是模仿免疫系統的一種智能方法,提供噪聲忍耐、自組織神經網絡結構學習、自組織與記憶神經網絡等學習系統,結合分類器、神經網絡和機器推理等系統的優點,具有分布式并行處理、自學習、自適應和強魯棒性和集中式分散處理與分析電力變壓器智能診斷故障等優點服務.
5 結束語
基于智能信息與處理電力變壓器故障診斷方法來應用電力變壓器故障云模型處理、灰色系統理論模型、人工免疫系統等內容的理念和方法.以提高智能信息電力變壓器故障診斷方法與灰色神經網絡模型預測的應用體系結構,實踐證明,基于智能信息處理關鍵技術在電力變壓器故障診斷方法能夠有效的排除故障.
參考文獻: