前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經網絡核心思想主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞: 動態紋理分類; 慢特征分析; 深度學習; 堆棧降噪自動編碼網絡模型
中圖分類號: TN919?34 文獻標識碼: A 文章編號: 1004?373X(2015)06?0020?05
Dynamic texture classification method based on stacked denoising autoencoding model
WANG Cai?xia, WEI Xue?yun, WANG Biao
(School of Electronics and Information Engineering, Jiangsu University of Science and Technology, Zhenjiang 212003 China)
Abstract: To overcome the shortcomings of extracting the feature descriptors by manual operation and too high feature dimension for dynamic scene classification, a deep learning network model is proposed to extract dynamic texture features. Firstly, the slow feature analysis method is used to learn dynamic characteristics of each video sequence through before hand, and the learned feature is used as input data of deep learning to get the advanced representation of the input signal. The stacked denoising autoencoding model is selected for the deep learning network mode. SVM classification method is used for its classification. The experimental result proves that the feature dimension extracted by this method is low and can effectively describe dynamic textures.
Keywords: dynamic texture classification; slow feature analysis; deep learning; stacked denoising autoencoding model
0 引 言
動態紋理是指具有空間重復性、并隨時間變化的視覺模式,這種模式形成了一系列在時間域上具有某種不變性的圖像序列[1]。不同的動態紋理可能具有相似的外觀,但是卻具有不同的運動形式,所以表觀和運動是動態紋理特征的兩大方面。在目前的動態視頻分析系統中,最關鍵的步驟是如何提取有效的動態紋理特征描述符。在過去幾十年里,對紋理的研究大部分都集中在靜態紋理特征的研究,動態紋理的研究相對靜態紋理而言起步要晚的多。動態紋理的研究最早始于20世紀90年代初,由Nelson和Polana采用建立線性系統模型的方法對其進行研究[2],并且將視覺運動劃分為三類[3]:行為、運動事件以及動態紋理。隨后,Szummer 和 Picard提出采用時空自回歸模型(Spatio?Temporal Auto Regressive,STAR)[4]對動態紋理序列進行建模。基于光流的識別法是目前比較流行的動態紋理識別法,因為其計算效率高,并且以一種很直觀的方式來描述圖像的局部動態紋理特征,Fazekas和Chetverikov總結出,正則性(Regulated)全局流與普通流(Normal Flow)相比,普通流可以同時包含動態特性和形狀特性[5]。基于LBP的動態紋理方法是最近幾年才提出的一種有效算法,典型的是Zhao等人提出的兩種時空域上的描述子:時空局部二值模式(Volume Local Binary Pattern,VLBP)[6]和三正交面局部二值模式(Local Binary Pattern from Three Orthogonal Planes,LBP?TOP)[7],有效地結合“運動”和“外觀”特征。2007―2008年是動態紋理研究最多的兩年,各大期刊雜志連續刊登有關動態紋理的研究文章。
本文試圖解決動態自然場景的分類問題(例如:煙火、河流、風暴、海洋、雪花等)。在計算機視覺領域,過去采用較多的是手動提取特征來表示物體運動信息(例如:HOF、基于STIP的HOG算法等),實驗表明該類方法對人體行為識別非常有效。但是由于自然環境比較復雜,動態紋理表現不穩定,易受光照、遮擋等影響,而手動選取特征非常費力,需要大量的時間進行調節,所以該類方法并不適用于動態場景分類。Theriault等人提出利用慢特征分析的方法來提取動態視頻序列的特征[8]。該方法雖然能有效表示動態紋理特征,但是其提取的特征維數較高。深度學習是機器學習研究中一個新的領域,其動機在于建立、模擬人腦進行分析學習的神經網絡,近幾年深度學習網絡模型在大尺度圖像分類問題中成功應用使得其得到越來越多人的重視。卷積神經網絡、深度置信網絡和堆棧自編碼網絡是三種典型的深度學習網絡模型,而堆棧自編碼網絡模型不僅對高維數據有很好的表示,而且采用非監督的學習模式對輸入數據進行特征提取,這對于傳統的手動提取特征。利用堆棧自編碼網絡模型對慢特征進行進一步學習,不僅能降低數據維度,而且還能提取出數據更有效的特征表示。
1 基于堆棧自編碼網絡模型的慢特征分析法
1.1 慢特征分析法
文獻[9?10]中提到,慢特征分析算法的目標是從不斷變化的輸入信號中學習不變量,即除了無意義的常值信號外,最具不變性質的信息,其實質也就是從快速變化的信號中提取緩慢變化的信號特征,這種特征是從混合信號中提取出來的源信號的高級表示,表征信號源的某些固有屬性[11]。
實驗證明,慢特征分析法在人體行為識別中有很好的描述作用,這為動態紋理分類提供了一個很好的選擇。慢特征分析算法的核心思想是相關矩陣的特征值分解,其本質是在經過非線性擴展特征空間對目標函數進行優化,尋找最優解的線性組合。
給定一個時域輸入信號序列:
[vt=v1t,v2t,…,vDtT]
目標就是學習一組映射函數:
[Sv=S1v,S2v,…,SMv]
使得輸出信號[yt=y1t,y2t,…,yMtT]的各個分量[yj=Sjvt]的變化盡可能緩慢,而且仍然保留相關的重要信息。選用時域信號一階導數的均方值來衡量輸出信號個分量的變化率:
[minSj<y?2j>t] (1)
且滿足以下條件:
(1) [<yj>t=0];
(2) [<y2j>t=1];
(3) [?j<j':<yj,yj'>t=0]。
其中:[<y>t]是[y]的時域平均值;[y?j]是[yj]的時域一階導數。這三個約束條件保證慢特征分析的輸出信號的各分量的變化率盡可能小,其中條件1和條件2確保輸出沒有無意義的常信號值,條件3確保輸出各分量之間是非相關的,且不同慢特征承載著不同信息。值得注意的是,函數[Sv]是輸入信號的瞬時函數,所以輸出結果不能看成是通過低通濾波器的結果,慢特征處理速度要比低通濾波器快很多。如圖1所示。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t1.tif>
圖1 時域輸入信號慢特征的提取
輸出信號各分量按照變化率從小到大排列,且互不相關,其最優解問題可以看成以下公式的解特征值問題:
[Sj:<v?v?T>tSj=λjSj] (2)
求解得到的特征值按從小到大的順序排列,即[λ1≤λ2≤???≤λM],輸出信號的慢特征和最小特征值息息相關。輸入信號[vt]可以是多種模式的圖像特征(例如色彩,梯度,SIFT特征,HOG特征)。
這里采用的是v1特征[12?13],該特征對圖像有很好的表示,確保預先學習到的慢特征能達到最優。
1.2 堆棧自動編碼模型
自動編碼器模型是深度學習網絡模型之一,其盡可能復現輸入信號,捕捉代表輸入信號的主要成分。
如圖2所示,對于給定輸入信號[x],根據式(2)得到輸出[y],此過程為編碼過程:
[y=fθx=sWx+b] (3)
式中:[sx=11+θ-x];[W]是[d′×d]維權重矩陣;[b]是偏移向量。
為了驗證輸出[y]是否準確表達原輸入信號,利用式(2)對其進行重構,得到重構信號[z]。此過程為解碼/重構過程:
[gθ′y=sW′y+b′] (4)
從輸入到輸出的權值記為[θ=W,b],從輸出到輸入的權值記為[θ′=W′,b′]。逐層進行參數[θ]和[θ′]的優化,式(5)為其目標函數:
[θ?,θ′*=argminθ,θ′Lx,zLx,z=12x-z2] (5)
調整參數,使得重構誤差達到最小,因此可以得到[x]的第一層表示。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t2.tif>
圖2 普通DA和降噪DA
降噪自動編碼器(Denoising Auto Encoder,Dae)是在自動編碼器的基礎上給訓練數據加入噪聲,編碼器需要學習去除噪聲而獲得沒有被噪聲污染的輸入信號,因此獲得輸入信號更加魯棒的表達。堆棧自動編碼模型(Sda)是將多個Dae堆疊起來形成的一種深度網絡模型。利用優化后的參數[θ]得到當前層的輸出[y](即下一層的輸入),將得到的[y]作為新一層的輸入數據,逐層進行降噪自動編碼的過程,直到到達多層神經網絡中間隱層的最后一層為止,算出該層輸出,即為輸出特征,如圖3所示。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t3.tif>
圖3 多層神經網絡結構圖
1.3 基于Sda的慢特征分析法
基于Sda的慢特征分析方法利用慢特征分析法預先學習動態視頻序列的慢特征,將該特征作為模型輸入,進行多層降噪自動編碼網絡模型參數的學習,最后使用SVM分類器對該模型的輸出特征進行分類,具體步驟如圖4所示。
2 實 驗
2.1 實驗數據集與評估準則
實驗所用數據由10類動態場景構成(包括海灘,電梯,森林煙火,高速公路,閃電,海洋,鐵路,河流,云,街道),且每一個類別由30個250×370 pixels大小的彩序列構成。這些視頻序列全部來自于加拿大約克大學計算機視覺實驗室于2012年的YUPENN動態場景數據集[14],該數據庫主要強調的是對象和表層在短時間內場景的實時信息。如圖5所示。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t4.tif>
圖4 基于Sda的慢特征分析步驟圖
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t5.tif>
圖5 YUPENN動態數據庫
將所有彩序列進行尺度縮放,分別放大和縮小1.2倍,1.4倍,1.6倍,并且在每一個尺度上進行旋轉,旋轉角度分別為[2°,4°,6°,-2°,-4°,-6°]。所以樣本總數為(10×30)×(6×6)=10 800個。實驗性能使用混淆矩陣(Confusion Matrix)進行衡量。混淆矩陣是多分類問題中常用的衡量準則,它使得分類結果一目了然并能指出錯誤預測的影響。分類矩陣通過確定預測值是否與實際值匹配,將模型中的所有事例分為不同的類別。然后會對每個類別中的所有事例進行計數,并在矩陣中顯示總計。實驗中一共有14個類別的數據集,所以最后會產生一個大小為14×14的混淆矩陣。
2.2 實驗結果與分析
實驗選用線性SVM分類器,采用Leave?One?Out 分析法進行分類。所有視頻序列全部轉換成灰度視頻進行慢特征分析,輸出大小為4 032維的慢特征向量作為Sda網絡模型的輸入數據。
2.2.1 Sda網絡模型大小
堆棧降噪自動編碼器網絡層數以及每一層的大小對輸出特征的魯棒性和SVM分類結果有重要的影響。當網絡層數不一樣時,模型學習到的特征也就不一樣,網絡層數過低,學習力度可能不夠,特征達不到最佳表示效果,網絡層數太高,可能會出現過擬合現象,隱層的大小和最后的分類結果也息息相關,所以選取不同網絡層數和隱層大小分別進行實驗,如圖6所示,選取網絡層數分別為1,2,3,隱層大小分別為500,1 000,2 000。由圖6可知,當隱層大小為500時的分類得分顯然比1 000和2 000時高很多;在隱層大小為500時,隨著網絡層數不斷增加,實驗結果不斷提升,當網絡層數由2層上升到3層時,實驗結果已經非常接近(網絡層數為2時score=95.9%,網絡層數為3時score=96.3%)。可以得知,隨著網絡層數不斷增加,分類的效果逐漸提高,當網絡層數為3時,分類結果已非常接近。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t6.tif>
圖6 不同網絡層數和隱層大小的分類結果
2.2.2 噪聲
Sdae對每一層的輸入加入噪聲,編碼器自動學習如何去除噪聲而獲得更加魯棒的動態紋理特征,因此每一層所加入的噪聲的大小對提取的特征有很大的影響。因此,選取不同大小的噪聲分別進行實驗,如圖7所示,選取噪聲大小分別為10%,15%,20%,25%,30%,35%,40%,45%,50%,固定網絡層大小為[500,500,500];由圖可知,加入噪聲對分類得分的影響呈類似拋物線形狀,對每一層輸入數據加入25%的噪聲時score=0.964為最大值。
2.2.3 混淆矩陣以及實驗與現有方法的比較
圖8為實驗最優參數所計算出的混淆矩陣,由圖可知,海灘、電梯、高速公路以及海洋的分類效果達到100%,噴泉(Fountain)的分類效果雖然最差,但也已經達到83%左右,其容易被誤分成森林火災(17%錯誤分類)。由該混淆矩陣可以得知,實驗所用方法能夠達到將近96.4%平均得分。表1是本文所用方法與現有幾個比較常用的動態紋理特征提取方法的比較,分別有HOF[15],GIST[16],Chaos[17],SFA[8]。由表格可以得知,SFA是幾個方法中效果最好的,可以達到76.7%的分類效果,而本文所用方法SFA+Sda比SFA方法提高了將近20%的分類得分,并且在每一個動態場景中分類效果總是優于其他幾種方法。
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t7.tif>
圖7 加入不同噪聲的分類結果
<E:\王芳\現代電子技術201506\現代電子技術15年38卷第6期\Image\42t8.tif>
圖8 混淆矩陣
表1 本實驗與現有方法比較
3 結 語
本文提出一種基于多層降噪自動編碼網絡模型的動態紋理分類方法:預先學習動態視頻序列的慢特征,以此作為多層降噪自編碼網絡模型的輸入數據進行非監督的深度學習,網絡最頂層的輸出即為所提取的動態紋理特征,采用SVM分類器對該特征進行分類。本文對實驗中的各種影響參數如網絡模型的深度、每一層的大小以及加入噪聲的大小做了充分的研究,實驗證明,該方法所提取的特征對動態紋理有很好的表示作用,分類效果不錯,在動態場景分類問題中有很大的應用價值。
參考文獻
[1] DORETTO G, CHIUSO A, WU Y, et al. Dynamic textures [J]. International Journal on Computer Vision, 2003, 51(2): 91?109.
[2] NELSON R C, POLENA P. Qualitative recognition of motion using temporal texture [J]. CVGIP: Image Understanding, 1992, 56(1): 78?89.
[3] POLANA R, NELSON R. Temporal texture and activity recognition [J]. Motion?Based Recognition: Computational Imaging and Vision, 1997, 9: 87?124.
[4] SZUMMER M, PICARD R W. Temporal texture modeling [C]// Proceedings of 1996 International Conference on Image Processing. [S.l.]: [s.n.], 1996: 11?16.
[5] FAZEKAS S, CHETVERIKOV D. Normal versus complete ?ow in dynamic texture recognition a comparative study [C]// 2005 4th International Workshop on Texture Analysis and Synthesis (ICCV 2005). [S.l.]: [s.n.], 2005: 37?42.
[6] ZHAO G, PIETIK?INEN M. Dynamic texture recognition using volume local binary patterns [C]// European Conference on Computer Vision. [S.l.]: [s.n.], 2006: 165?177.
[7] PIETIK¨AINEN G Z M. Dynamic texture recognition using local binary patterns with an application to facial expression [J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007, 29(6): 915?928.
[8] THERIAULT Christian, THOME Nicolas, CORD Matthieu. Dynamic scene classification: learning motion descriptors with slow features analysis [EB/OL]. [2014?09?17]. http://.
[9] FRANZIUS M, WILBERT N, WISKOTT L. Invariant object recognition with slow feature analysis [C]// ICANN 18th International Conference. Berlin: Springer?Verlag, 2008: 961?970.
[10] WISKOTT L, SEJNOWSKI T. Slow feature analysis: Unsupervised learning of invariances [J]. Neural Comput., 2002, 14: 715?770.
[11] 馬奎俊,韓彥軍,陶卿,等.基于核的慢特征分析算法[J].模式識別與人工智能,2011(2):79?84.
[12] DE VALOIS R, YUND E, HEPLER N. The orientation and direction selectivity of cells in macaque visual cortex [J]. Vision Research, 1982, 22: 531?544.
[13] HUBEL D, WIESEL T. Receptive fields of single neurons in the cat’s striate cortex [J]. Journal of Physiol, 1959, 4: 574?591.
[14] DERPANIS Konstantinos, LECCE M, DANIILIDIS K, et al. Dynamic scene understanding: the role of orientation features in space and time in scene classification [C]// International Conference on Computer Vision and Pattern Recognition. [S.l.]: [s.n.], 2012: 111?121.
[15] MARSZALEK M, LAPTEV I, SCHMID C. Actions in Context [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2009: 2?6.