前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的模式識別主題范文,僅供參考,歡迎閱讀并收藏。
模式識別與智能系統是20世紀60年代以來在信號處理、人工智能、控制論、計算機技術等學科基礎上發展起來的新型學科。
模式識別與智能系統是控制科學與工程的二級學科,以信息處理與模式識別的理論技術為核心,以數學方法與計算機為主要工具,研究對各種媒體信息進行處理、分類和理解的方法,并在此基礎上構造具有某些智能特性的系統。
該學科以各種傳感器為信息源,以信息處理與模式識別的理論技術為核心,以數學方法與計算機為主要工具,探索對各種媒體信息進行處理、分類、理解并在此基礎上構造具有某些智能特
(來源:文章屋網 )
(①濟南工程職業技術學院,濟南 250200;②山東建筑大學信息與電氣工程學院,濟南 250101)
(①Ji’nan Engineering Vocational Technical College,Ji’nan 250200,China;
②School of Information and Electrical Engineering,Shandong Jianzhu University,Ji’nan 250101,China)
摘要: 為了準確提取與識別焊縫射線數字成像中焊接缺陷,本文提出了一種基于神經網絡的模式識別算法。首先,分析了非線性模式分類的基本原理,通過人工神經網絡實現對焊縫內存在的焊接缺陷進行分類;然后,采用缺陷的幾何特征作為分類算法的輸入數據,并應用神經網絡關聯標準理論評估鑒別能力,證明了特征提取的質量重要性優于數量;最后,將基于神經網絡的主要非線性鑒別分量的識別算法應用于缺陷識別中,并通過大量實驗分析與評價其分類性能。實驗結果數據證明該算法在焊接缺陷模式識別方面具有較高的效率。
Abstract: In order to extract and recognize welding defects in digital X-ray images, this paper proposes a neural network based on pattern recognition algorithm. Firstly, the fundamental of the nonlinear pattern classification has been analyzed. By means of artificial neural network, the classification of welding defects in welding lines has been realized. Later on, the geometric feature of the welding defect has been adopted for input data. The identification ability was evaluated by neural network association standard theory. It proved that quality was more important than quantity. At last, the neural network based on principal discrimination components has been applied to defect identification and satisfying result has been achieved. The experimental result proved this necognition has high efficiency.
關鍵詞 : 焊接缺陷;缺陷識別;關聯標準;非線性模式;神經網絡
Key words: weld defects;defect identification;correlates of standard;nonlinear pattern;neural networks
中圖分類號:O434文獻標識碼:A文章編號:1006-4311(2015)25-0115-05
基金項目:國家自然科學基金(61473176,51207083,61473172);山東省優秀中青年科學家獎勵基金(BS2013DX045); 山東省高校科研發展計劃項目(J13LG52);山東建筑大學博士基金(XNBS1249)。
作者簡介:梁瑋(1980-),女,山東濟南人,博士研究生,主要研究方向為數字射線無損檢測及優化算法。
0 引言
數字射線檢測較其他方法而言具有較高的圖像精度。目前,在對焊接質量進行評價時,尚需采用傳統方法,如檢驗員的目測。這種方法對經驗要求較高,發生錯誤的概率也較高[1-2]。對于數字射線檢測缺陷的分類,也有數字智能化的算法應用。其自動檢測步驟大致如下:第一,膠片圖像數字化或直接進行數字射線圖像生成;第二,圖像的預處理;第三,焊縫缺陷的識別和分類;最后,檢驗結果的獲取與后處理。
本文使用線性分類算法將神經關聯的標準用于研究各種缺陷特征,并證明了特征提取的質量重要性優于數量,以提高分類成功的概率。主要鑒別分量(PCD:Principal Components of Discrimination)算法在其它研究領域比較常用。采用此算法,通過神經網絡執行,用于減少輸入維數,并且對等級分離區的二維性進行可視化。
1 模式識別及分類算法
1.1 缺陷特征的提取
數字射線圖像的噪聲一般作為隨機分散的像素出現,并且相鄰像素值并沒有耦合特征。低通濾波器一般用于降低噪聲,采用直方圖均衡或拉伸的算法對對比度進行優化。從而提高圖像的對比度,更容易地檢測到焊縫和缺陷[3-4]。
圖像進行預處理之后,需要提取焊縫的形狀和位置特征。文獻[5]提取了10種特征,開發了自動焊縫射線照片檢驗系統。文獻[6]提出采用10種焊接缺陷特征,將特征用于缺陷識別,需要比分類器圖像像素處理更少的信息。但是需要非常大的輸入空間,計算較為復雜。
本文算法采用四種特征形成系列非線性模式分類數據輸入,如下:
①位置(P= h/H):缺陷到焊縫中心的距離(h)之間與發生缺陷的焊縫厚度(H)之比。H用于求焊縫厚度變化的平均值,此類變化經常出現在焊縫射線照片中。
②長寬比(a=L/e):小橢圓的長軸(L)與短軸(e)的比率,相當于此缺陷的面積。
③比例e/A:短軸(e)與缺陷面積(A)之比。
④渾圓度(p2/4πA):缺陷的周長p的乘方與缺陷面積A的4π倍之比。
采用上述特征,形成用于神經網絡(輸入矢量)的輸入數據集。
1.2 基于神經網絡的非線性模式分類及關聯標準
本文采用雙層神經網絡模型,分別為中間層和輸出層。通過調整中間層神經元的數量,跟蹤輸出性能和誤差,確定最佳神經元數量。得到的結果用神經元數量與誤差分類性能圖進行表示。在模式分類的一種網絡中,輸出層中的神經元數量對應進行研究的等級數量。在此情況下,輸出包含四個神經元,考慮只有包含一種級別;若輸出包含五個神經元,則考慮只有包含兩種級別,并且將此夾渣等級分為兩種等級:線性和非線性夾渣。所有神經元在一定范圍內都是雙曲正切型。輸入矢量 是一個四維向量,在算法執行中,根據關聯標準可降維為3、2或1。
本文采用文獻[7]中所述關聯標準得到的新結果。此標準基于對網絡回復中的變化進行搜索,此時使用的特征用其平均值進行代替。網絡回復之間的差異越大,特征的關聯就越大[7-9]。將此標準用于評價原來采用的六種特征,由于分類器為線性的,并且只通過雙曲正切型神經元執行。采用方程式對關聯的標準進行計算如式(1)所示。
1.3 非線性分類的主要分量分析
主要分量分析(PCA:Principal Components Analysis)是一系列多變量數據的有效精簡技術之一。它將多維數據通過線性映射在低維中的一種技術,從而減少信息的損失。但是,由于它是一種線性映射方法,故并不適用于非線性的工程問題中。因此,需要借助于主要非線性分量的分析[10-12]。形成主要分量的方法之一就是采用人工神經網絡,可以用于減少表示分量。本文借助主要分量用于非線性鑒別,通過神經網絡執行,并且已通過誤差反向傳播算法進行開發,步驟如下:
非線性鑒別的第一個分量由在誤差反向傳播中訓練三層網絡中得到。第一層只包括一種線性神經元,并且其余層為雙曲正切型神經元,如圖2所示。
II類:兩種分量也可以通過同時訓練得到,也就是說,這兩種分量在網絡訓練期間在它們之間進行合作。通過類似方式可以對3,4或m分量進行相同程序。在此情況下,形成輸入空間減少和優化的基礎,用于分類。
在有多維度的數據中,很難顯示等級分離問題的規模。但是,通過采用兩種主要非線性鑒別分量,可以對模式等級進行較好的區分。在此方式中,借助獨立起作用的兩種,查看一起處理的四種和五種等級的分離圖。這些分量通過圖2中的神經網絡得到,并且采用反向傳播誤差、瞬時和可變的學習速率進行訓練。
將分量p1用作非線性分類器輸入矢量,以便用于評價性能,同時也可以采用通過合作行動的兩類訓練得到的(p1+p2)獨立值以及兩個分量。
2 實驗結果和討論
2.1 非線性模式分類
為了找到用于非線性分類器中間層的最佳神經元數量,采用在此層中逐漸增加神經元數量的經驗標準,然后對分類誤差和性能進行觀測。同時考慮將夾雜等級分為線性夾雜和非線性夾雜(總共五種等級)如圖3(a)所示,若將夾雜只作這一種等級(總共四種等級)如圖3(b)所示。注意在第一種情況中,有五種等級,分類器到達最高性能(99.2%)和最小誤差,其訓練數據針對中間層中的17/18種神經元。對于四種等級,通過10種神經元達到最佳性能(100.0%)。
結果表明,只有一件樣品沒有明確分類。因此,所有等級的成功概率都大約為100.0%。咬邊等級得到的分布實例如圖4所示。
2.2 非線性關聯標準
根據上述結果,采用這些特征對輸入的不同組合進行試驗。圖5為針對這些特征組合得到的各種結果。通過輸入矢量a-e/A-P得到的這些結果,不考慮特征R,在兩種情況下(四種和五種等級)都等于通過四種特征得到的結果,從而說明輸入矢量的維度仍然可以減少為3維,而不會影響分類器的性能。也對只采用兩種特征的可能性進行研究,如圖5所示,雖然與使用四種或三種特征相比,性能降低,但是使用非線性分類器時,此分類中的成功率仍然高于90%。
2.3 非線性鑒別的主要分量
圖6為獨立起作用的兩種主要非線性鑒別分量的兩個二維圖。圖6(a)為四種等級的分離,說明咬邊和未焊透等級出現在良好定義的區域,因此很容易通過非線性分離器進行分離。氣孔和夾渣等級在圖中出現混亂區域,并且夾渣的有些觀測值位于氣孔區域中。這在以前采用線性分類器時已檢測到,因為誤差分類為這些等級的參考數據。在圖6(b)中可以注意到有五種等級,非線性夾渣、線性夾渣與氣孔之間的混亂更大,但是這很容易解釋,因為夾渣的兩種等級之間的區分比較復雜,這是由于其特征類似[13-16]。
圖7中的圖表表示只采用第一種分量p1作為分類器的輸入矢量時得到的性能結果,同時(p1+p2)為獨立的分量(二維矢量),并且(p1+p2)為合作的分量(用于兩種類型)。
結果表面只采用第一種分量時,有四種等級的訓練數據的成功率達到92.0%,在邏輯上有五種等級的更復雜情況的成功率更低(66.4%)。采用兩種分量時,成功率非常接近采用三種或四種特征時達到的成功率。這還確定使用的分量類型之間的性能沒有顯著差。這些結果證明了主要分量減少原始數據維度的效率,并且保持分類成功的較高能力。對于進行研究的這種情況,沒有對將規模從三維或四維降低為二維進行判定。但是,這些結果將推動通過更大規模的系統進行類似研究。
3 結論
本文采用二層神經網絡及主要分量分析法對數字射線圖像中的焊接缺陷進行分類,實驗結果表明,無論是四種還是五種等級(夾渣是否分為線性和非線性),均取得了較高的分類效率,算法適用性較好,不依賴于大量經驗數據,具有較好的應用前景。
參考文獻:
[1]孔凡琴,路宏年.采用數字射線DR成像的焊接質量檢測[J].無損檢測,2008,30(1):20-22.
[2]梁麗紅,孔凡琴,路宏年.X射線非晶硅面陣探測器B級像質的研究[J].無損檢測,2005,27(3):113-116.
[3]張曉光,高頂.射線檢測焊接缺陷的提取和自動識別[M]. 國防工業出版社,2004.
[4]陶亮,孫同景,李振華,等.基于鄰域對比度的X射線數字圖像自適應增強法[J].無損檢測,2011,33(1):20- 22.
[5]Kato Y, Okumura T, Matsui S, et al. Development of an automatic weld defect identification system for radiographic testing[J]. Welding Word 1992, 30(7): 182-195.
[6]Aoki K, Suga Y. Application of artificial neural network to discrimination of defect type automatic radiographic testing of welds[J]. ISI International, 1999, 39(10): 1081-1097.
[7]Silva RR, Siqueira MHS, Caloba LP, et al. Radiographics pattern recognition of welding defects using linear classifiers[J]. Insight, 2001, 43(10): 669-674.
[8]Silva RR, Siqueira MHS, Caloba LP, et al. Evaluation of the relevant characteristic parameters of welding defects and probability of correct classification using linear classifiers[J]. Insight, 2002, 44(10): 616-622.
[9]Silva RR, Siqueira MHS, Caloba LP, et al. Contribution to the development of a radiographic inspection automated system[C]. 8th European Conference on Non-destructive Testing, June 17-21, Paris, 2002.
[10]Seixas JM, Caloba LP, Delpino I. Relevance criteria for variance selection in classifier designs[C]. International Conference on Engineering Applications of Neural Networks, April 4-6, London, 1996.
[11]Dong D, McAvoy TJ. Nonlinear principal component analysis-based on principal curves and neural networks[J]. Comput Chem Engng, 1996, 20(1): 65-78.
[12] Ang AHS, Tang WH. Probability concepts in engineering planning and design[J]. Basic principles, 1975, 1(5): 575-579.
[13]Mery D, Silva RR, Caloba LP, et al. Pattern recognition in the automatic inspection of aluminium castings[J]. Insight, 2003, 45(7):1-9.
[14]Mery D, Filbert D. Classification of potential defects in the automatic inspection of aluminium castings using statistical pattern recognition[C]. 8th European Conference on Non-Destructive Testing, June 17-21, Barcelona, 2002.
關鍵詞:CDIO;工程教育;主動學習;經驗學習
作者簡介:袁立(1978-),女,河北邢臺人,北京科技大學自動化學院,副教授;李曉理(1971-),男,遼寧沈陽人,北京科技大學自動化學院,教授,博士生導師。(北京 100083)
基金項目:本文系教育部第五批高等學校特色專業建設項目“自動化CDIO特色專業建設”(項目編號:TS2422)的研究成果。
中圖分類號:G642.0 文獻標識碼:A 文章編號:1007-0079(2013)04-0051-02
CDIO是由美國麻省理工學院、瑞典皇家技術學院、瑞典查爾姆斯技術學院、瑞典林克平大學等四所大學從2000年起合作研究探索的一種新型的工程教育模式。CDIO教育模式力圖培養學生能夠在現代的、基于團隊的環境下構思(Conceive)—設計(Design)—實施(Implement)—運行(Operate)復雜、高附加值的工程產品、過程和系統,讓其成為成熟、有責任感的人。[1]CDIO改革有三個總體目標,即教育學生,使他們能夠更深層次地掌握技術基礎知識,不是通過被動的聽講過程獲取知識,而是讓學生自己構建他們的知識,面對和糾正自身的錯誤理解;教育學生能夠領導新產品、過程和系統的創造與運行,在此過程中培養學生的個人能力和人際交往能力,個人能力包括工程推理和解決問題的能力、科學探索、系統思維和批判性及創造性思維,人際交往能力包括交流溝通和團隊工作能力;第三個目標是使學生能夠理解和研究技術發展對社會的重要性和戰略影響。可以看出,CDIO模式注重扎實的工程基礎理論和專業知識的培養,并通過貫穿整個人才培養過程中的團隊設計和實踐環節的訓練,從而培養既有過硬的專業技能又有良好綜合素質的國際化工程師。[2]
作為高等工程教育的一種新的教育理念,CDIO模式受到越來越多工程學科的重視。北京科技大學(以下簡稱“我校”)自動化專業在2009年以自動化專業工程化、鋼鐵流程自動化為工程背景和專業特色加入了CDIO項目。“模式識別”課程是模式識別與智能系統學科的基礎課,是一門基礎理論與工程實踐相結合的課程。本課程主要討論統計模式識別的分類和識別基本原理、方法。要求學生掌握統計模式識別的基本概念、基本識別原理和方法,了解其發展動態,有效地運用所學知識和方法解決實際問題,為研究新的模式識別的理論和方法打下基礎。[3,4]那么如何在該課程的教學過程中培養學生的綜合素質,滿足學科學習和能力學習的雙重目標,成為需要迫切思考的問題。本文在深入研究和分析“模式識別”課程現有教學模式的問題和不足的基礎上,探索將CDIO教育理念引入該課程,進行教學設計、規劃教學方案、確定教學手段、安排教學內容和考核方式,以促進學生綜合能力的培養。
一、“模式識別”課程傳統教學模式中存在的問題
“模式識別”課程從應用角度來看,屬于人工智能、機器學習的領域,從學術內涵角度來看是進行數據處理、信息分析的學科。該課程在縱向上與概率論、數理統計密不可分,在橫向上注重與數字圖像處理、信號處理、通信原理等專業課程有關聯。可見,該課程對于鞏固已學知識、開展后續專業課學習及未來工作具有積極的指導意義。
該課程內容本身比較抽象性,其概念、原理和方法都隱藏在數學符號中,講課過程中學生往往會感到枯燥、難懂。教師的講解和學生的學習難度都比較大,理論知識學完后學生對于其實際應用有時仍是一頭霧水。傳統教學模式下存在以下一些問題:在教師的授課環節中,往往以教師的授課為中心,而不是以學生為主體,這種重“教”輕“學”的模式不利于學生對基礎知識的掌握;課時的安排上,總課時(32學時)中28學時為理論授課,4學時為實驗。在實驗環節中,學生上機動手編程,根據課上內容設計相應的分類器實現。這種課時安排不利于充分開展工程項目實踐活動,使學生失去了了解模式識別在工程項目中真實應用的機會,限制了其對專業技能的掌握;在實驗環節中,實驗內容的安排基本上以個體為單位的驗證性實驗為主,缺乏多人合作的設計性、綜合性及創新性的實驗,不利于學生團隊協作能力、批判思考能力、綜合解決問題能力及創新能力的綜合培養。
可見,以上重理論輕實踐、強調個人學術能力而忽視團隊協作精神、重視知識學習而輕視開拓創新的培養模式與CDIO理念還有很大差距。
二、基于CDIO的“模式識別”課程教學改革探索
針對目前“模式識別”課程教學中存在的問題對原有的課程體系進行改革,以適應CDIO教育模式下的人才培養目標。我校按照CDIO教學大綱的標準來進行教學設計和教學活動的安排,進行如下一些主要的變革:
第一,從教學內容的安排上進行改革。在教學過程中優化、精選教學內容,確保教學內容相對穩定而又不斷地更新,保持內容的先進性。對基礎理論部分如貝葉斯決策理論、線性與非線性判別函數、近鄰法和集群、聚類分析、特征提取與選擇等知識單元,將主要精力放在精講、訓練與總結這三個環節,對重點、難點講深講透。此外,還根據模式識別領域最近的發展,引入最新科技成果,為學生適當補充統計理論與支持向量機、流行學習理論和稀疏編碼理論等知識。另外,還從橫向上注重與同一層次相關課程(如“數字圖像處理”)的關聯性,使學生把從不同課程上學到的知識整合起來,為將來從事工程項目活動打下基礎。
第二,從教學方式上進行改革。傳統授課方式的一般模式是:教授、復述、周作業、期末一個小的設計項目和最終筆試。要改變這種以教師為中心的教學方式,按照CDIO專業計劃中提倡的一體化學習的思想來完成教學任務。為了考試而死記硬背理論知識會使學生對學習內容理解膚淺,缺少長期學習的積極性。所以在教學中采用主動學習方式使學生直接參與思考和解決問題的活動,讓學生思考概念,特別是新的想法,并要求他們做出明確地反應,使他們明白學到了什么和怎樣學習的。
主動學習方法在課堂教學中有許多靈活的手段,比如授課疑點卡、概念問題、小組討論等等。授課疑點卡通過收集課堂上的反饋來測定學生在理解方面的不足。針對學生提出的問題,教師可以在課程的網頁上回答,也可以在下次課的開始時回答。對學生來講,寫下問題的過程有助于他們組織思路并進行更有效地學習;對教師來講,這些疑點卡能及時糾正學生的錯誤的理解,并幫助教師改進后續的內容。概念問題是一個多項選擇題,用來收集學生對課堂上的反饋,從而了解學生是否理解教學內容并糾正學生的誤解之處。教師在課前把“模式識別”的重要概念以及通常可能的錯誤理解準備成問題,在課堂上適時提出來,學生通過舉手來回答即可。根據回答情況,學生可進行討論或由教師進行點評。小組討論:對于一些相對簡單的內容,讓學生提前預讀,在課上采用分組討論、學生講解、教師總結的方式進行。
第三,采用經驗學習法為學生創造建立信心的機會。工程教育的CDIO教學模式正是基于經驗學習理論的。經驗學習讓學生能夠在模擬工程師角色和工程實踐的環境中進行教學活動。對大多數學生而言,學習和理解理論的動力就是應用理論并與實踐相結合。通過實踐學習能激發他們更大的積極性,并使他們認識到所學的知識是有用的,學習積極性的提高使他們對所學的知識和即得能力更有信心。其結果是讓學生有能力勝任未來工程師的角色。
常用的經驗學習方法就是基于項目的學習。在授課過程中增加模式識別應用項目的內容,如字符識別、車牌識別、人臉識別、膚色分割、圖像檢索等,通過項目講解幫助學生回顧所學的知識,并將理論與實際相結合,使學生學會分析和解決實際問題的方法。另外,還將教師從事的與“模式識別”相關的科研項目介紹給學生,拓展學生的知識面。從實際效果來看,有些學生對實際工程案例和科研工作很感興趣,主動申請“模式識別”方向的本科創新項目和發表學術論文。
對于一些典型的“模式識別”工程項目,學生分團隊后選擇某個工程項目,以團隊合作方式收集和整理有關信息資料,提出解決方案,研究結束后做出演示系統并在課堂上進行講解。
第四,對學習效果的評估方法進行改革,采用多種方法來收集學生在課程學習期間和學習之后等不同時期的學習證據,全面了解學生的學習成績和學習態度有何轉變。第一種方式仍然是傳統的筆試。第二種是口試,可以用于概念問題來判定學生對知識的理解層次。口頭考核能從深層次上反映學生對概念的理解和應用,因為現實中工程師每天都會應用基礎概念進行理性表述,這種方式可以評估學生進行理性表達的能力。第三種是表現評分,通過學生在口頭演講和團隊工作等特定任務中的表現情況來進行評估。第四種是項目審查,對團隊完成的項目進行評估。模式識別項目主要是從分類性能上對學生完成的項目進行評估。
結合CDIO教育模式,通過以上四方面的改革,能夠創設積極的學習情景,激發課堂活力,調動學生的積極性和主動性。這套新的教學體系可以用圖1來描述。
三、結束語
本文在CDIO工程教育模式下,探討了如何對傳統“模式識別”課程教學方法進行改革,提出了一種新的教學體系。近兩年的授課結果表明,新授課體系在CDIO模式下對激發學生學習興趣、明確學習方向、轉變學習態度、提高專業基礎水平和團隊合作意識及提高教學效果等方面發揮出了明顯的積極作用。
參考文獻:
[1]顧佩華,沈民奮,陸小華.重新認識工程教育——國際CDIO培養模式與方法[M].北京:高等教育出版社,2009.
[2]陸鑫,任立勇,王雁東.CDIO模式下軟件工程專業課程的教學評價方式[J].計算機教育,2011,(16):64-67.
船舶運動模式的提取是軌跡數據分析的重要任務,它可以為船舶異常行為的檢測提供參考依據,同時也可以作為航路規劃和定線制設計的技術指標.針對現存的聚類算法大多為了追求效率而忽略了運動軌跡特征的問題,對聚類算法中的軌跡結構距離進行改進,將其作為軌跡相似度的評價標準.采用無監督DBSCAN聚類算法實現船舶運動模式的提取.利用瓊州海峽船舶自動識別系統(AutomaticIdentificationSystem,AIS)數據,對該水域的船舶運動模式進行提取,獲得行駛于該水域的船舶運動軌跡分布以及各類軌跡中轉向區域的分布,其中船舶運動軌跡包括從瓊州海峽東峽口向西航行的船舶軌跡,從瓊州海峽西峽口向東航行的船舶軌跡,從秀英港前往海安港的船舶軌跡,從海安港前往秀英港的船舶軌跡和從瓊州海峽東峽口前往海口港的船舶軌跡.將最終的聚類結果應用于電子海圖顯示與信息系統(ElectronicChartDisplayandInformationSystem,ECDIS)上,實現了對船舶的動態監控仿真.
關鍵詞:
船舶自動識別系統(AIS);模式識別;聚類分析;電子海圖顯示與信息系統(ECDIS);瓊州海峽
中圖分類號:U697.33
文獻標志碼:A 收稿日期:20150907 修回日期:20151102
0引言
隨著全球船舶自動識別系統(AutomaticIdentificationSystem,AIS)岸站的建立和不斷完善,各地海事主管機關時刻都能接收到大量有關船舶信息的數據.對這些數據的研究可以幫助我們提取船舶運動模式,分析船舶行為,從而進一步挖掘不同航線船舶、不同類型船舶的運動特點.例如:在一些運量較大的港口附近,對船舶運動軌跡進行分類能夠幫助監控人員識別異常行為;根據漁船運動的無規律性和貨船運動的周期性,利用聚類結果區分船舶種類,判斷運動特征是否與船舶類型相符,是否需要進一步的監控和調查.此外,船舶運動軌跡的聚類分析能夠為航路規劃和定線制的設計提供理論依據,有利于加強船舶動態監控,提高海事監管的效率.
目前國內外學者提出了諸多從目標對象的軌跡中獲取運動模式的方法.SHU等[1]利用自組織映射網絡作為預處理技術標記行人的運動特征,然后采用后向算法建立馬爾科夫模型,實現了對人行為模式的提取;胡宏宇等[2]以改進的Hausdorff距離作為相似度標準,采用譜聚類算法實現了對車輛軌跡空間分布的提取;聞佳等[3]利用加權的Hausdorff距離和周分割算法實現了車輛軌跡的聚類;RISTIC等[4]基于港口信息,采用核密度估計的方法對船舶軌跡進行分類;ETIENNE等[5]提出了一種基于統計學和圖論的軌跡聚類分析方法,該方法將船舶的起訖港作為節點,將相似軌跡歸一化為特定的有向路徑;AARSETHER等[6]采用圖像匹配的方法對船舶軌跡進行聚類;GERBEN等[7]對提取船舶運動模式的兩種主要的相似度對比的方法進行了分析,總結出二者中更適合于船舶軌跡聚類的方法;ANDERS等[8]將軌跡聚類應用于近海監控系統來識別船舶的異常行為;LAXHAMMAR等[9]通過高斯混合模型和核密度估計的方法對船舶運動進行統計分析,獲得有異常行為的船舶數據.此外,神經網絡和以K均值為代表的無監督聚類方法也被廣泛應用于軌跡聚類,如JONHSON等[10]建立自組織特征映射網絡學習軌跡分布模式,ATEV等[11]則利用K均值算法完成對軌跡的聚類.
海上交通與陸路交通有一定的相似性.道路被劃分為單行道、雙行道等,而航路也被劃分為單向航路和雙向航路.雖然海上交通的航行范圍廣闊,但在某些特定水域(港口、通航分道、狹水道)船舶密度較大,軌跡分布較密集.鑒于此特點,應用在陸路交通上的一些方法也可以應用到海上交通,以提高海上交通的監管力度和效率.
1AIS數據的預處理
由船舶交通管理中心(VesselTrafficServicecenter,VTS)提供的AIS數據通常具有較高的可信度,但是AIS數據中的船舶位置、船舶速度等信息會由于設備以及信號漂移等原因發生較大的改變,如AIS數據顯示船舶位于陸地上,顯示航速為35kn甚至更高[12].
為保證數據的可用,需要對數據做預處理,具體方法如下.
2軌跡聚類
移動目標軌跡的聚類能否取得良好的效果,在于軌跡間的相似性度量是否合理.當前主要的相似性度量的方法有基于歐氏距離的算法、基于公共子序列的算法、基于動態時間彎曲距離的方法和基于Hausdorff距離的方法,其中基于歐氏距離的算法通常用于計算等長的船舶軌跡相似性,其他的幾種方法可以用于不同長度的船舶軌跡相似性計算.以上方法都僅從距離方面反映相似度,而基于軌跡結構距離的相似性度量方法的優點在于能夠刻畫每條子軌跡變化的趨勢.因此,為便于度量船舶軌跡的變化,需要將整條軌跡劃分成若干條子軌跡.
2.1軌跡分割
船舶軌跡的劃分是通過設置船舶轉向角的閾值實現的.船舶軌跡轉向角是指相鄰兩個子軌跡段的航跡向之差,見圖1.
圖1中,a,b為軌跡中的兩條子軌跡段,其航跡向的夾角為θ1,即為這兩條子軌跡的轉向角.鑒于AIS數據的位置坐標采用的是WGS84坐標系,利用恒向線直接反解算法[13]求得兩條子軌跡段的航跡向,根據其航跡向的差值可以獲得船舶子軌跡間的轉向角.
恒向線直接反解算法的步驟如下.
2.2軌跡結構相似性度量
船舶子軌跡段相似性計算從子軌跡段的航跡向和兩條子軌跡段間的距離兩個方面進行.對兩方面的度量結果賦以一定的權重求和,形成軌跡的結構距離.
(1)船舶航跡向的比較.
如圖2所示,Li,Lj表示兩條航跡線,θ表示航跡段的方向夾角,J表示Lj相對于Li的偏轉程度.
航跡向對比方法為
通過上式不難發現:當夾角為0°時為最佳狀態,即兩條子軌跡方向完全一致;當夾角大于90°時可以認為兩條軌跡基本反向,將兩條軌跡的距離設置為無窮大,這樣有利于區分航向相反船舶的軌跡.
(2)位置的比較.
本文在兩條子軌跡段間距離的度量方面所采用的相似性度量方法為基于Hausdorff距離的方法:
式中:P(Li,Lj)為兩軌跡間的位置距離;h(Li,Lj)為兩軌跡間的直接Hausdorff距離;d(a,b)為a與b之間的歐氏距離.
船舶軌跡結構是指船舶軌跡所具有的屬性的集合,這些屬性刻畫了船舶軌跡的特性和狀態.船舶軌跡結構通常包含船舶運動信息,如:船舶的航跡向、船舶的位置.同時,在實際應用中還可以加入速度以及波動性的度量.進行軌跡相似性的比較時,充分考慮這些因素可以提高聚類的精度[14].依照式(8)和(9)可以求得子軌跡航跡向以及子軌跡間距離相似度.為計算軌跡結構的相似性,還需設定他們在軌跡結構中所占的權重W=(WT,WP),其中WT表示角度距離權重,WP表示位置距離權重.各權重值設定應滿足:權重值之和應為1;各權重值應為非負,同時不能大于1.通常情況下采用的是將結構距離中的權重平均分配.式(11)和(12)分別為結構距離和相似度計算方法.
2.3聚類算法
基于軌跡結構距離的聚類算法是以DBSCAN算法為框架的,即從子軌跡集合中任取一條軌跡并判斷在其鄰域半徑內是否包含滿足要求的最小實體數.如果滿足以上述條件,則認為是核實體,并搜索該實體的密度可達對象,標記為一類,直至子軌跡集合全部掃描完畢,未被標記的子軌跡則是孤立軌跡.具體的實現方法如下.
步驟1設定權重W,轉向角閾值ω,近鄰閾值η,近鄰的數目ε.
步驟2根據ω將軌跡T分割成若干個子軌跡Ti.
步驟3對子軌跡段Ti,計算其與未標記的子軌跡段的D和N,若滿足D和N條件的軌跡數目大于ε則將該子軌跡段標記為核心子軌跡段.
步驟4將Ti子軌跡段距離范圍D內滿足N條件的子軌跡段Tj與Ti聚為一類.
步驟5對Tj重復步驟3和4,將滿足條件的子軌跡段繼續歸為一類,如果Tj不再滿足上述條件,則重新從子軌跡集合中選取未被聚類的子軌跡段重復步驟3和4.直至軌跡集合全部掃描完畢.
3瓊州海峽應用實例與應用
瓊州海峽位于雷州半島與海南島之間,寬10~20nmile,長50~60nmile,是廣州港、湛江港等港口與北部灣各港口海上交通的捷徑.瓊州海峽主要可分為3部分,分別為:瓊州海峽東口,包括外羅水道、北水道、中水道和南水道;瓊州海峽西口,包括燈樓角與臨高角聯線以西、兵馬角所在經度線以東水域,該水域是來往于瓊州海峽駛往八所港、三亞港等地的轉向點,也是往北部灣各港口的轉向點;瓊州海峽中部,包括山狗吼燈塔經度線以西、燈樓角與臨高角聯線以東水域,該水域的水較深(20~118m),礙航物較少.
算例采用32位WIN7系統、2GRAM,在VS2010編譯條件下提取750條船舶運動軌跡進行聚類,獲得了5類結果,見圖3.A類結果為從瓊州海峽東峽口向西行駛于通航分道內的船舶的航行軌跡分布、B類結果為從瓊州海峽西峽口向東行駛于反向航道的船舶的航行軌跡分布、C類結果為從海安港到秀英港的船舶的航行軌跡分布、D類結果為從秀英港到海安港的船舶的航行軌跡分布、E類結果為瓊州海峽東峽口向西行駛進入海口港的船舶的航行軌跡分布.
3.1算法分析
為比較算法的優劣,將基于軌跡結構距離的DBSCAN算法與傳統的DBSCAN算法進行對比,結果見表2.
表2算法對比結果
從表2中可以看出,基于軌跡結構距離的DBSCAN算法在運行時間方面劣于傳統的DBSCAN算法,但是在分類結果和準確度方面皆優于傳統的DBSCAN算法.這是因為:基于軌跡結構距離的DBSCAN算法需要進行軌跡的分割、角度的度量、歸一化等操作,增加了計算復雜度;該算法以軌跡特征為參考,從多方面計算軌跡相似度,易發現比較隱蔽的軌跡群,使其聚類效果優于傳統的DBSCAN算法的聚類效果.
3.2聚類應用
將上述所獲得的船舶軌跡聚類的結果應用到船舶監控、異常檢測上,能夠大幅度提高海上安全保障能力,防止海上交通事故的發生[15].
3.2.1速度監控
速度監控是利用監控水域的AIS信息,對聚類結果中的船舶速度進行統計,獲得船速分布圖.根據實際工作中的經驗和需要,確定行駛于該監控水域的船舶速度監控范圍.圖4是對從瓊州海峽東峽口航行至海口港的船舶速度統計.對于該監控水域,本文以80%船舶運營速度(9~14kn)為標準.
圖5為監控系統的速度報警,可以看出編號為A的船超速,說明該船航速不在監控航速范圍內,予以報警.
3.2.2位置監控
位置監控主要是對航行于聚類結果區域的船舶進行船位的實時監控,如果船舶偏離監控水域,本船和監控系統應給予報警和提示,提醒監控人員和船舶駕駛員關注船舶動向.圖6a為本船的位置報警示意圖,圖6b為監控系統的位置報警示意圖.
3.2.3航向監控
航向監控主要利用AIS數據對聚類結果中船舶航向進行統計,獲得船舶的航向分布,以此作為監控依據.圖7a是對從瓊州海峽東峽口到海口港的聚類結果中船舶轉向后的航向統計結果.圖7b和7c為本船和監控系統的航向報警示意圖.
綜上所述,可以得到船舶監控的實現流程圖(圖8),首先對進入監控水域的船舶進行位置監控(若偏離監控水域則報警),然后進行速度監控(判斷速度是否超出規定范圍,如果超出則進行速度報警),接著進行航向的監控直至船舶駛離監控水域.
4結論
本文利用軌跡結構距離作為相似性的度量標準,對軌跡段間的相似性進行評價,采用無監督的DBSCAN算法將相似性接近的船舶軌跡歸為一類,實現了對船舶運動模式的提取.以瓊州海峽為例,利用預處理過的部分瓊州海峽AIS數據,將航行于該水域的船舶軌跡分為5類,分別為從瓊州海峽東峽口向西航行的船舶軌跡、從瓊州海峽西峽口向東航行的船舶軌跡、從海安港到秀英港的船舶軌跡、從秀英港到海安港的船舶軌跡以及從瓊州海峽東峽口向西航行進入海口港的船舶軌跡.從瓊州海峽東峽口向西航行的船舶軌跡位于(20°14′25″N,110°26′20″E)與(20°09′05″N,110°01′24″E)之間的通航分道內;從瓊州海峽西峽口向東航行的船舶軌跡分布于(20°13′N,110°26′20″E)與(20°06′45″N,110°01′24″E)之間的通航分道內;從瓊州海峽東峽口向西航行進入海口港的船舶軌跡,其轉向位置大約發生在以(20°10′16″N,110°14′08″E)為圓心,半徑為0.5nmile的水域范圍內.將聚類的結果與ECDIS模擬器相結合,從船舶位置、速度、航向等3個方面實現了船舶動態監控的仿真.實驗證明船舶運動模式識別能夠有效地應用于船舶動態監控,進而保障航行安全,增強海上安全保障能力.
參考文獻:
[1]SHUHM,KATSU.TraininghiddenMarkovmodelstructurewithgeneticalgorithmforhumanmotionpatternclassification[C]//SCIICASEInternationalJointConference.Busan:IEEEPress,2006:618622.
[2]胡宏宇,王慶年,曲昭偉,等.運動目標空間模式識別與異常行為檢測[J].吉林大學學報,2011,41(6):15981602.
[3]聞佳,崔維.實時視頻中的車輛運動軌跡的提取和聚類[J].計算機工程與應用,2010,46(11):155157.
[4]RISTICB,SCALARL.StatisticalanalysisofmotionpatterninAISdata:anomalydetectionandmotionprediciton[C]//11thInternationalConferenceonInformaiton.Fusion,Cologne:IEEEPress,2008:17.
[5]ETIENNEL,DEVOGELET.Similarityanalysisofmobileobjectstrajectoriesfollowingthesameitinerary[J].IngenierieDesSystemesD’information,2009,14(5):85106.
[6]AARSETHERKG,TORGEIRM.EstimatingnavigationpatternsfromAIS[J].JournalofNavigaiton,2009,65(4):587607.
[7]GERBENKDV,MAARTENVS.Ananalysisofalignmentandintegralbasedkernelsformachinelearningfromvesseltrajectoris[J].ExpertSystemswithApplications,2014,41(2):75967607.
[8]ANDERSD,LARSN.Trajectoryclusteringforcoastalsurveillance[C]//10thInternationalConferenceonInformationFusion.Quebec:IEEEPress,2007:18.
[9]LAXHAMMARR,FALKMANG,SVIESTINSE.AnomalydetectioninseatrafficacomparisionoftheGaussianmixturemodelandthekerneldensityesimator[C]//12thInternationalConferenceonInformaitonFusion.Seattle:IEEEPress,2009:756763.
[10]JOHNSONN,HOGGD.Learningthedistributionofobjecttrajectoriesforeventrecognition[J].ImageandVisionComputing,1996,14(8):609615.
[11]ATEVS,MASOUDO,PAPANIKOLOPOULOSN.Learningtrafficpatternsatintersectionsbyspectralclusteringofmotiontrajectories[C]//IEEEInternationalConferenceonIntelligentRobotsandSystems.Beijing:IEEEPress,2006:48514856.
[12]QUXB,MENGQ,LISY.ShipcollisionriskassessmentfortheSingaporestrait[J].AccidentAnalysisPrevention,2011,43(3):20302036.
[13]史國友,朱公志,賈傳熒,等.恒向線主題直接正反解的高精度算法[J].大連海事大學學報,2009,35(2):59.
關鍵詞:模式識別;語音識別;交互式語音應答;司法社區矯正
中圖分類號:TP391.41 文獻標識碼:A
Abstract:Systematic research was done on the specific algorithm for speech recognition in using genetic algorithm to train continuous hidden Markov mode. Then the detailed design of Voiceprint Recognition System of Community Correction Objects in the Shenzhen City Bureau of Justice has been done based on the speech recognition technology. The system running results show that the recognition rate of recognition algorithm using genetic algorithm to train continuous hidden Markov model is faster and has a higher rate of recognition. Construction of voiceprint recognition system of judicial community correction objects based on pattern recognition is still in the junior stage in our judicial system, and promotion and the construction of voiceprint recognition system of judicial community correction objects have the important practical significance.
Key words:pattern recognition;speech recognition;interactive voice response;judicial community correction
1 利用基因算法訓練連續隱馬爾柯夫模型的語音識別以及具體算法
作為模式識別重要應用之一的語音識別技術所涉及的領域包括信號處理、模式識別、概率論和信息論、發聲機理和聽覺機理、人工智能等等。近年來,在生物識別技術領域中,聲紋識別技術以其獨特的方便性、經濟性和準確性等優勢受到世人矚目,并日益成為人們日常生活和工作中重要且普及的安全驗證方式。
隱馬爾柯夫模型(Hidden Markov Model,HMM)方法是二十世紀70年代引入語音識別理論的,它的出現使得自然語音識別系統取得了實質性的突破,現已成為語音識別的主流技術[1-4] ,該方法在語音識別時識別速度較快,也有較高的識別率。目前大多數大詞匯量、連續語音的非特定人語音識別系統都是基于HMM模型的。HMM是對語音信號的時間序列結構建立統計模型,將之看作一個數學上的雙重隨機過程:一個是用具有有限狀態數的Markov鏈來模擬語音信號統計特性變化的隱含的隨機過程,另一個是與Markov鏈的每一個狀態相關聯的觀測序列的隨機過程。前者通過后者表現出來,但前者的具體參數是不可測的。人的言語過程實際上就是一個雙重隨機過程,語音信號本身是一個可觀測的時變序列,是由大腦根據語法知識和言語需要(不可觀測的狀態)發出的音素的參數流。可見HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩性和局部平穩性,是較為理想的一種語音模型。
在HMM(隱馬爾柯夫模型)中,分為離散HMM(DHMM)和連續HMM(CHMM)。由于CHMM直接以幀語音特征向量本身為觀測序列,而不是像DHMM那樣先將語音特征向量經矢量量化為觀測符號,因此CHMM有優于DHMM的識別精度。然而,由于CHMM參數多,傳統的訓練方法采用迭代法,先假設初始值,用語音信號的觀測序列對該初始值進行訓練,也即按照一定的方法對這些估值進行提純,對提純了的估值要接著進一步的提純,直到再沒有改進的余地,達到某個局部最佳值為止。傳統的訓練方法不保證訓練得到全域最優解,而且訓練所需要的時間非常巨大。
本文側重地研究了基因算法[5],并按照CHMM的特點構造染色體,用基因算法對CHMM進行訓練。基因算法自身的特點使得訓練結果趨向于全域最優解。同時,由于只需要用Viterbi算法計算語音的觀測序列對某一CHMM模型的相關概率,用作基因算法的適應函數,故該算法可以提高CHMM的訓練速度。
基因是生物學概念,之所以將基因算法引入HMM的訓練中,是因為HMM的訓練過程實際上是一個在特定范圍內將HMM模型進行一次次的迭代提純,選擇最優模型的過程。將基因算法引入CHMM的訓練,就是基于將CHMM看作在特定域的有約束的尋找最佳匹配點的問題。CHMM的狀態轉移矩陣A和輸出概率密度函數中的混合系數c矩陣的每一行向量之和為1.0,可看作是優化問題的約束條件。如果在選取CHMM的初始值時,不是選取一個初始值,而是選取一組分布于不同區域的初始值,以某一種特定的訓練方法,使其趨向于全域最優解,那么最終也同樣可以完成對CHMM的訓練。
根據待優化問題的數學模型,定義適合函數F(ai)。其中ai是某一條染色體,則適合函數F(ai)就是該染色體與目標函數的距離,或是判斷該染色體優劣的依據。對每一代基因,計算所有染色體的適合函數,進行排序選擇一定數目較優秀的染色體,作為生成下一代基因的父代樣本。自然界中染色體成對出現,時一對染色體分離、重組。多點交叉在實現時,可以設定交叉概率門限為ρc。染色體的長度為L,對于隨機數0≤rj≤1 (j=1,2,…,L),如果rj≥ρc,那么下一個變量屬于另一條基因,否則下一個變量與前一個變量屬于同一條基因。
最佳基因是在一代一代的基因重組和基因突變中形成的,是在選擇的作用下最適應的個體。基因突變有利于從局部最佳處跳出,防止算法的過早收斂。設定突變概率門限為ρm,對于隨機數0≤rj≤1 (j=1,2,…,L),如果rj≤ρm,那么染色體中第j個變量有突變現象發生;否則,復制原染色體的第j個變量。
基因算法的具體實現步驟參考文獻[5]。
HMM是用一個有限狀態系統作為語音特征參數的生成模型,每個狀態能產生連續的輸出特征。HMM實際上是一個特征參數發生器,依據其產生的參數與觀察到的語音參數的比較,從而識別語音。在識別時的判決依據是HMM模型的生成概率。
在將基因算法引入CHMM訓練的過程中,首先要解決的是染色體的構造問題。將CHMM模型的所有關鍵特征參數排列成一串,構成染色體。對于語音識別,采用自左向右的HMM模型,本文中為5狀態自左向右只含一階跳轉的CHMM模型。CHMM模型中參數由初始狀態向量π,狀態轉移矩陣A和每個狀態的輸出概率密度函數組成。
在CHMM模型中,染色體前一部分的行向量之和均為1。也就要求在產生染色體時,需對其進行一定的控制。在生成每一代染色體時,對這一部分行向量所對應的每一段染色體進行歸一化,則可以滿足CHMM的約束條件。
Viterbi算法在通常的CHMM語音識別中是作為識別算法的,換句話說,使觀測序列與CHMM模型經Viterbi算法的運算結果最大即為優化目標。基于這樣的思想,基因算法的適合函數為:所有該CHMM對應的觀測序列用Viterbi算法求其觀測概率之和,運算結果越大,則該染色體越優秀。
在實驗中染色體的前一部分依概率進行二點或多點交叉,而后一部分染色體只進行多點交叉,多點交叉概率ρc=0.8。染色體前一段的基因突變概率ρm=0.1;而對于染色體的后一部分,取ρm1=0.01,對應于以一個參數為單位發生基因突變;ρm2=0.08,以行向量為單位發生基因突變。經基因交叉或基因突變后,對染色體的前一部分需要進行各行向量的歸一化處理。每一代基因的數目為300,從中選出60條優秀的染色體作為新的父代基因,經基因重組和基因突變生成240條染色體,共同組成新一代染色體。CHMM模型的訓練問題現已轉化為求其對觀測序列適應概率最大值的問題,用基因算法求解。
訓練數據取自博域通訊一體化呼叫中心平臺產品BYICC2.0的IVR服務器在實際商業運行中產生的WAV錄音文件2000個。
2 利用基因算法訓練連續隱馬爾柯夫模型的語音識別技術在深圳市司法局社區矯正聲紋識別系統中的應用介紹
2.1 司法社區矯正的需求背景以及存在問題
司法社區矯正,是指將社區矯正對象置于社區內,由專門的國家機關負責并組織社會力量對其采取監督管理、教育、幫助措施,矯正其犯罪心理和行為惡習,促進其順利回歸社會的非監禁刑罰執行活動。盡管目前我國社區矯正工作中較普遍地應用了信息化管理手段,根據社區矯正的刑罰執行性質和非監禁特征,各地積極探索運用手機定位等現代科技手段加強對社區矯正人員的實時監管,具體的監管手段包含:手機實時定位監控、電子地圖越界告警、人機分離抽查等。現階段,很多司法社區矯正工作中應用到了諸如手機實時定位監控等高科技手段來實現對社區矯正人員的監控,但在具體操作中仍然存在一些問題和障礙,主要在現有手機定位監控的技術下,難以有效控制人為出現的“人機分離”現象。現有“人機分離”抽查手段主要有:電話抽查、短信抽查、拍照抽查等。雖然一定程度上降低了矯正對象“人機分離”的風險,但這些抽查手段皆無法確保是否為矯正對象本人,有脫管、漏管的可能性。
正是基于以上原因,博域通訊推出的社區矯正聲紋識別系統的主要功能是通過遠程電話錄音來對社區矯正人員進行身份認證,結合手機定位監控系統,促進社區矯正工作向合理化、人性化、智能化、效率化方向發展,推動社區矯正信息化建設,并有效破解移動定位監管“人機分離”的難題。
2.2 深圳市司法局社區矯正聲紋識別系統設計
2.2.1 系統應用體系架構
社區矯正聲紋識別方案中,包括聲紋識別系統、IVR自動語音服務系統并結合現有的手機定位系統以及后臺管理系統,同時,聲紋識別服務也涉及到了數據庫服務器之間的數據通信。
2.2.2 系統網絡架構
被矯正人員通過撥打固定電話號碼接入社區矯正聲紋識別系統,由內置電話語音板卡的IVR服務器將采集到的客戶語音,并通過調用聲紋服務器提供的接口函數與聲紋識別服務器進行交互。聲紋服務器將識別的結果反饋給IVR服務器以便進行相應的IVR語音流程控制,同時,社區矯正聲紋識別系統將被矯正人員的聲紋身份識別結果反饋給手機定位系統。其網絡拓撲結構圖如圖3所示。
2.2.3 系統業務流程
深圳市司法局社區矯正聲紋識別系統與現有手機定位系統結合后的主要業務流程如下圖:
2.2.4 系統運行結果主要指標
利用基因算法訓練連續隱馬爾柯夫模型的語音識別的司法社區矯正聲紋識別系統已于2014年1月在深圳市司法局上線投入運行。
聲紋識別技術在實際應用中,會根據說話人識別內容的不同分為文本相關驗證和文本無關驗證。深圳市司法局社區矯正聲紋識別系統,支持這兩種方式的驗證,根據實際工作和業務的需要,用戶可以選擇適合自己的聲紋驗證方式。
同時,與手機實時定位監控、電子地圖越界告警、電話抽查、短信抽查等傳統監管手段相比較,語音識別技術有效地控制了司法社區矯正中人為出現的“人機分離”現象。
3 結束語
模式識別從20世紀20年展至今,人們的一種普遍看法是不存在對所有模式識別問題都適用的單一模型和解決識別問題的單一技術,我們現在擁有的只是一個工具袋,所要做的是結合具體問題把統計的和句法的識別結合起來,把統計模式識別或句法模式識別與人工智能中的啟發式搜索結合起來,把統計模式識別或句法模式識別與支持向量機的機器學習結合起來,把人工神經元網絡與各種已有技術以及人工智能中的專家系統、不確定推理方法結合起來,深入掌握各種工具的效能和應有的可能性,互相取長補短,開創模式識別應用的新局面。基于模式識別技術的司法社區矯正聲紋識別系統能夠有效地破解移動定位監管“人機分離”的難題,其建設工作在我國司法系統目前尚處于起步階段,推廣和建設司法社區矯正聲紋識別系統具有重要的現實意義。
參考文獻
[1] 劉伯高.化工過程推斷估計的若干問題研究[D].華東理工大學博士論文.華東理工大學圖書館,2000.
[2] 王嵐,陳晶,王睿,等.幾種模式識別方法在生物信息中的應用[J]. 計算機與應用化學,2007,(1):8-12.
[3] 楊海峰,張德祥.模式識別理論和技術在語音識別研究中的應用[J].合肥學院學報:自然科學版, 2009,(1):40-46.
本文在分析輸配電線路安全運行存在問題的基礎上,分別從在輸配電線路的管理中積極運用信息技術;強化輸配電線路的技術管理等方面對輸配電線路的安全運行技術進行了探討。
【關鍵詞】輸配電線路 安全運行 問題 措施
輸配電線路是一種將電力用戶與供電系統連接在一起的電力傳輸設施,其運行安全與否直接決定著電力系統的運行質量,從而直接影響到我們烏魯瓦提水力發電廠的經濟效益。近年來,隨著輸配電線路事故發生率節節攀升,對人們的生命安全造成嚴重威脅。因此,為了確保烏魯瓦提水力發電廠的正常運行以及用戶用電的正常,我們必須采取相應維護措施,加強輸配電線路的安全運行。結合多年實踐經驗,筆者從以下幾個方面對此問題進行探究。
1 輸配電線路安全運行的問題分析
在實際運行過程中,輸配電線路所處的環境較為復雜,影響其安全運行的因素(見表1)也較多。筆者結合自身多年一線實踐經驗,分析、總結輸配電網安全運行中存在的問題。
2 提高輸配電線路安全運行的措施探究
2.1 在輸配電線路的管理中積極運用信息技術
科技是第一生產力,在任何行業都如此。如果能夠熟練運用最新科技產物將給整個輸配電線路的管理工作帶來極大便利。信息技術在配電網中的應用主要在管理設備、檢測運行狀態、管理用電等方面。安全問題一直都是電力行業的重點,要保證電力設備的安全狀態必須對其進行實時監控,對出現的異常及時的進行分析排查。例如我們可以用絕緣系統為例來說明信息技術對配電網的重要作用。對電力設備來說,決定其使用年限的重要因素之一就是絕緣材料,它的使用壽命將直接決定設備的使用壽命。絕緣系統在工作過程長期暴露在電、物理、化學、自然災害等不可抗的損害之下,將不可避免的逐漸老化,嚴重影響其使用性能。在嚴重的情況下,甚至會出現絕緣缺陷的嚴重問題,一旦這些問題沒有及時發現并進行有效改進措施,將會引起運行障礙甚至引發安全事故。而信息技術可以自動實時監控配電網絡中的各個設備和線路,一旦參數出現異常,信息技術都將可以在第一時間發現并排查,以最快的速度恢復正常。提高供電網絡的可靠性。對配電網進行信息技術管理可以提供以下管理功能:
(1)輸配電線路內出現故障時可以及時發現,隔離并排查恢復。
(2)整個恢復過程由電腦自動化全程控制。
(3)在輸配電線路進行故障維修或維護時,能自動實現負荷平衡的配電網供電過程。
(4)對輸配電線路的監控數據都顯示在配有街區線路圖的顯示器上。
(5)可以提供用戶與設備連接的信息。
(6)各種數據顯示結果與檢測報告可以紙質化。
(7)為進一步保證安全配電,可以為相關工作人員提供比較真實的培訓演練過程。
2.2 強化輸配電線路的技術管理
輸配電線路的安全管理是一項涉及項目多、技術要求高、更新速度快的系統工作,在配電網的實際運行維護階段,工作人員應積極引進和運用先進的科學技術,強化輸配電網的技術管理。目前,在輸配電網的運行過程中往往需要用到以下技術,如表2所示。
3 結束語
總而言之,維持輸配電線路的安全運行是一項長期、系統的工作。輸配電線路的正常運行是保證電力系統安全運行的關鍵,也是用戶正常用電的安全保障。因此,對輸配電線路進行安全管理是極為重要的。但是當前我國在輸配電線路的安全運行和管理中還存在一定的不足之處,給輸配電線路的安全運營帶來了隱患。這就需要電力工作人員在日常的工作中及時發現不足,并采取一定的措施如做好日常安全管理;強化輸配電線路的技術管理;在輸配電線路的管理中積極運用信息技術,全面保證電力系統的安全可靠運行,給人們營造一個安全的用電環境,不斷提高人們的生活品質。
參考文獻
[1]吳若愚,彭學洪,張雷.輸配電線路的安全運行問題與對策[J].企業技術開發(下半月),2014(06).
[2]程浩.對輸配電線路安全運行的探究[J].中國科技信息,2013(15).
[3]劉達應.輸電線路人為因素外力破壞原因分析和應對措施探討[J].中國科技博覽, 2011(35).
[關鍵詞] 牛膽粉;膽汁酸;高效液相色譜;蒸發光散射檢測器;化學計量學
[Abstract] An HPLC-ELSD method with good specificity and good accuracy was used for the studies of fingerprint and quantification of multi-components for cattle bile powder. The chromatographic analysis was carried out on a Phenomenex Gemini C18 column (4.6 mm×250 mm, 5 μm) with a column temperature of 40 ℃ and a liquid flow-rate of 1.0 mL?min-1using 10 mmol ammonium acetate solution and acetonitrile as the mobile phase with a linear gradient. An ELSD was used with a nitrogen flow-rate of 2.8 L?h-1, at a drift tube temperature of 110 ℃. The average contents of glycocholic acid, glycodeoxycholic acid, taurocholic acid, taurodeoxycholic acid were (25.2±17.0)%, (4.1±3.4)%, (24.5±20.0)% and (5.2±3.8)% respectively, and the total content of the four bile acids was (59.0±26.0)%. Beyond that, the preprocessing and pattern recognition analysis of the chromatographic fingerprints of samples were applied with chemometric method. The results of this chemometric analysis indicated that the samples from market and self-made samples were different signally, and four regions were noteworthy due to their great impact with poor chromatographic signal. All in one, because this HPLC-ELSD method was simple and accurate, it was suitable for the quality assessment and quality control of cattle bile powder and could be the technological base for its standard perfection.
[Key words] cattle bile powder;bile acids;HPLC;ELSD;chemometrics
doi:10.4268/cjcmm20161319
牛膽是牛科動物牛Bos taurus domesticus Gmelin的膽汁,多以牛膽粉入藥使用或儲藏。在宰牛時,取出膽囊,清水洗凈,剪開,取牛膽汁,濾過,干燥,粉碎制得牛膽粉。牛膽的藥用歷史十分悠久,始載于《神農本草經》,此后在歷代本草學著作中也多有記載。《名醫別錄》記載其功效為“除心腹熱、渴、利,口焦燥,益目睛”。在《本草經疏》中,繆希雍描述其為“牛食百草,其精華萃于膽,其味苦,其氣大寒,無毒”。《本草綱目》記載其有“除黃殺蟲,治癰腫”的作用。
牛膽汁主要含膽汁酸、膽色素、粘蛋白、脂肪、膽甾醇、卵磷脂及無機鹽[1]。其中的膽汁酸類成分主要有膽酸、去氧膽酸、鵝去氧膽酸、甘氨膽酸(glycocholic acid,GCA)、甘氨去氧膽酸(glycodeoxycholic acid,GDCA)、甘氨鵝去氧膽酸、牛磺膽酸(taurocholic acid,TCA)、牛磺去氧膽酸(taurodeoxycholic acid,TDCA)、牛磺鵝去氧膽酸等[2]。有研究[3-5]表明,GCA,GDCA,TCA,TDCA是牛膽中的主要化學成分,甘氨酸結合型膽汁酸與牛磺結合型膽汁酸的總量基本接近。牛膽中游離型膽汁酸含量極低,但是如果牛膽汁原料不新鮮或者加工方法不當,可能會造成微生物的酵解或分解,致使游離型膽汁酸含量增高,而結合型膽汁酸含量降低。
現代中醫臨床常以牛膽作為主藥治療咽炎、氣管炎、上呼吸道炎、消化不良以及黃疸型傳染性肝炎等癥[6]。牛膽還是頗具特色的民族醫藥品種,蒙醫常用其作為治療協日病和配毒癥的重要藥材,而且牛膽還是一些常用蒙成藥中不可或缺的藥材組方[7-8]。此外,它還是人工牛黃的重要原料[9],而人工牛黃在多種成藥中都有使用,其應用范圍非常廣泛。
牛膽粉中主要的活性成分即為膽汁酸類,尤以結合型膽汁酸為主,累計含量約占牛膽粉的一半,是牛膽粉中重要的成分。本文使用HPLC-ELSD法結合化學計量學技術對牛膽粉的指紋圖譜進行了較深入的研究,并對牛膽粉中的主要膽汁酸類成分(GCA,GDCA,TCA,TDCA)進行了測定,以期從定性和定量2個角度對牛膽粉的質量評價與控制提供技術參考。
1 材料
Mettler AE240 電子天平(瑞士Mettler-Toledo公司);KQ-300DA型數控超聲波清洗器(昆山市超聲儀器有限公司);Waters2695高效液相色譜儀(美國Waters公司);Alltech 2000ES蒸發光散射檢測器(美國Alltech公司)。
乙酸銨(質譜級,美國Fisher Scientific公司);乙腈(色譜級,美國Fisher Scientific公司);甲醇為優級純,水為Milli-Q超純水。
牛磺膽酸鈉(TCANa,批號:110815-201309)購自中國食品藥品檢定研究院;牛磺去氧膽酸鈉(TDCA,批號:17-ABY-6-1)來自加拿大TRC公司;甘氨膽酸鈉(GCANa,批號:PSMEN-AS)來自日本TCI公司;甘氨去氧膽酸鈉(GDCANa,批號:080M25083V)來自美國SIGMA公司。
測定樣品為13批牛膽粉樣品(編號為ND1至ND10的10批樣品為自制樣品,編號為ND-S-1,ND-S-2,ND-S-3的3批樣品為市售樣品)。
2 方法
2.1 供試品溶液的制備
取樣品粉末約25 mg,精密稱定,置具塞錐形瓶中,精密加入甲醇25 mL,稱定質量,超聲(功率300 W,頻率40 kHz)處理20 min,甲醇補足減失質量,過濾,即得。
2.2 對照品溶液的制備
精密稱取GCANa對照品適量,加甲醇配成每1 mL含GCANa為0.432 0 mg的對照品母液。逐級用甲醇稀釋成GCANa質量濃度為0.021 6,0.043 2,0.086 4,0.129 6,0.172 8,0.216 0,0.259 2,0.345 6,0.432 0 g?L-1的系列GCANa對照品溶液。
精密稱取GDCANa對照品適量,加甲醇配成每1 mL含GDCANa為0.212 0 mg的對照品母液。逐級用甲醇稀釋成GDCANa質量濃度為0.010 6,0.021 2,0.031 8,0.042 4,0.053 0,0.063 6,0.074 2,0.084 8,0.095 4,0.106 0,0.127 2,0.169 6,0.212 0 g?L-1的系列GDCANa對照品溶液。
精密稱取TCANa對照品適量,加甲醇配成每1 mL含TCANa為0.524 0 mg的對照品母液。逐級用甲醇稀釋成TCANa質量濃度為0.026 2,0.052 4,0.104 8,0.157 2,0.209 6,0.262 0,0.314 4,0.419 2,0.524 0 g?L-1的系列TCANa對照品溶液。
精密稱取TDCANa對照品適量,加甲醇配成每1 mL含TDCANa為0.256 0 mg的對照品母液。逐級用甲醇稀釋成TDCANa質量濃度為0.012 8,0.025 6,0.038 4 ,0.051 2,0.064 0,0.076 8,0.089 6,0.102 4,0.115 2,0.128 0,0.153 6,0.204 8,0.256 0 g?L-1的系列TDCANa對照品溶液。
2.3 色譜條件
色譜柱為Phenomenex Gemini C18(4.6 mm×250 mm,5 μm);柱溫40 ;進樣量10 μL;ELSD漂移管溫度110℃,ELSD氮氣流量2.8 L?h-1,增益為1。流動相為10 mmol乙酸銨水溶液(A)-乙腈(B),梯度洗脫為0~8 min,30%~37% B;8~15 min,37%~47% B;15~16 min,47%~70% B;16~20 min,70% B,見圖1。
3 結果與討論
3.1 方法學考察
3.1.1 線性關系考察 分別精密吸取系列GCANa,GDCANa,TCANa,TDCANa對照品溶液各10 μL,注入高效液相色譜儀,測定并記錄各濃度GCANa,GDCANa,TCANa,TDCANa對照品溶液色譜圖的GCANa,GDCANa,TCANa,TDCANa色譜峰的峰面積,分別以GCANa,GDCANa,TCANa,TDCANa的進樣量(μg)的對數值和其對應的色譜峰峰面積的對數值為橫坐標和縱坐標,繪制GCANa,GDCANa,TCANa,TDCANa標準曲線,曲線方程及相關系數見表1。
3.1.2 精密度試驗 按照上述色譜條件分別連續進樣ND1供試品溶液6次,分別記錄GCANa,GDCANa,TCANa,TDCANa色譜峰的峰面積,并計算各峰面積的RSD%分別為1.1%,1.3%,0.80%,1.0%,表明儀器精密度良好。
3.1.3 重復性試驗 按照上述供試品溶液制備方法平行制備6份ND1供試品溶液,并按照上述色譜條件分別進樣,測定1號牛膽粉樣品中GCA,GDCA,TCA,TDCA(分別由GCANa,GDCANa,TCANa,TDCANa換算可得)的平均質量分數分別為26.5%,6.4%,23.4%,7.2%,RSD分別為1.3%,1.2%,1.0%,1.6%,表明方法重復性結果良好。
3.1.4 回收率試驗 取ND1樣品6份,每份約12.5 mg,精密稱定,分別精密加入GCANa質量濃度為0.432 0 g?L-1的對照品溶液6 mL,GDCANa質量濃度為0.169 6 g?L-1的對照品溶液4 mL,TCANa質量濃度為0.524 0 g?L-1的對照品溶液5 mL,TDCANa質量濃度為0.256 0 g?L-1的對照品溶液3 mL,再分別精密加入甲醇7 mL,稱定質量,超聲(功率300 W,頻率40 kHz)處理20 min,甲醇補足減失質量,過濾,按照上述色譜條件測定計算GCANa,GDCANa,TCANa,TDCANa的平均回收率(n=6)分別為101.7%,99.00%,102.1%,98.20%,RSD分別為1.6%,1.7%,2.0%,2.1%,結果表明方法準確度良好。
3.1.5 穩定性試驗 取ND1供試品溶液,在0,4,12,24,36,48,60 h進樣,分別測定GCANa,GDCANa,TCANa,TDCANa的峰面積,計算上述成分的峰面積的RSD分別為2.8%,2.6%,2.9%,3.1%,結果表明供試品溶液60 h內穩定性良好。
3.1.6 檢測限與定量限的確定 分別將GCANa,GDCANa,TCANa,TDCANa的對照品溶液逐級稀釋至適合的濃度,以信噪比為3∶1時的進樣量(ng)作為檢測限,信噪比為10∶1時的進樣量(ng)作為定量限,測得該法對GCANa,GDCANa,TCANa,TDCANa的檢測限與定量限,見表1。
3.2 指紋圖譜數據預處理及模式識別
3.2.1 指紋圖譜數據預處理 在實際的色譜試驗中,常常會出現一些無法避免的外部條件的改變而對色譜數據的采集造成或大或小的影響,比如色譜儀器和色譜柱性能的波動、流動相的改變以及外界溫濕度的變化等。正因為這些不確定性因素的存在,不同批次樣品的色譜圖之間相同成分的色譜峰的保留時間都不可避免的存在漂移的情況,為了避免這一情況對后續數據分析的影響,必須要對色譜數據進行保留時間的校正處理。
本文采用COW算法對各批樣品的色譜圖進行保留時間的校正,參數segment length和slack size分別設置為23和9時,效果最佳。各批樣品的色譜校正前與校正后的情況,見圖2,可以很明顯的看出校正前的各批樣品色譜圖的色譜峰均有十分明顯的漂移情況出現,盡管這種情況對定量分析影響不大,但是對于色譜的全輪廓化學計量學定性分析來說,必定會對分析結果產生影響。經過COW算法校正之后,色譜峰的漂移情況得到十分明顯的改善,并且色譜峰的峰形也沒有發生明顯變化。
3.2.2 系統聚類分析 對樣品經過校正后的色譜圖進行autoscale處理,然后直接進行ward′s method系統聚類分析,見圖3。結果顯示13批牛膽粉樣品依照圖3中虛線I可將樣品分為距離較遠的2大類,這2大類分別為10批自制樣品和3批市售樣品;若依照虛線Ⅱ可將樣品分為3類,其中自制樣品分為了距離十分接近的兩類。由圖1可知,市售樣品的色譜峰比自制樣品的色譜峰峰面積小且峰個數多,這些差別反映在色譜圖的系統聚類分析中正是自制樣品與市售樣品較大的聚類距離。
3.2.3 主成分分析 與以上系統聚類分析步驟相同,先將經過校正的樣品色譜進行autoscale處理,然后再進行主成分分析。結果第一、第二和第三主成分的方差貢獻分別為88.2%,2.44%,1.74%,累計方差貢獻為92.3%,前3個主成分的樣品得分分布見圖4。由該圖可知,與系統聚類分析結果相似,總體來說樣品可分為自制與市售樣品兩大類,而這兩大類的差別主要表現在第一主成分的得分上。
這一情況更加明顯,市售與自制樣品分別分布在第一主成分得分的原點上下,見圖5。
將各批樣品的平均色譜圖與變量的第一主成分得分分布圖進行對比見圖6,可以發現其中4處色譜區間的第一主成分得分相比其色譜信號具有更明顯的得分權重,尤其是第一、第二和第四個色譜區間的色譜峰極為不明顯,但第一主成分的得分權重卻不容忽視,可見這3處是自制與市售樣品的重要差別之處,同時也是區別自制與市售樣品的關鍵所在。
3.3 主要膽酸類成分測定
將各批樣品按照上述供試品溶液制備方法制備,并按照上述色譜條件進行測定,以標準曲線法計算GCA,GDCA,TCA,TDCA(由GCANa,GDCANa,TCANa,TDCANa換算可得)含量,見表2。RSD分別為38.1%,43.5%,43.0%,40.2%。
3.4 討論
與色譜峰或化學組分含量相比,以全輪廓譜圖為研究對象可以得到更全面的分析結果,避免一些微量組分信息的遺失,同時也降低了對色譜峰的分離情況的要求。但是全輪廓譜圖的分析又必須以色譜信號的校正為前提,為了保證校正前后色譜信號的表征信息不出現較大的誤差,校正算法必須能夠保證色譜信號的輪廓形狀在校正前后不發生較大的變化。本文采用的COW算法是目前國際上流行的校正算法,其特點就是能夠較大程度的保留校正前的色譜信息,但是其2個參數的選擇是難點,也是影響校正效果的關鍵因素。
聚類分析是無監督模式識別中常用的一種方法,是對未標出類別的模式樣本按照樣本間相似程度分類,具有相似性的歸為一類,而不具相似性的歸為另一類。本文對13批樣品的色譜信息進行分析聚類,所參考的并非僅僅是顯著的色譜特征,還包括色譜信息經抽象后特征空間內的特征變量的分布情況,并以多維空間中的距離進行度量。最終樣本是可以顯著地分為2大類,即自制樣品和市售樣品。
主成分分析是最古老的多元統計分析技術,應用十分廣泛。主成分分析的主要目的就是對矩陣數據進行降維,以解決化學信息重疊現象嚴重的問題,得到的新變量要盡可能多的表征原有變量的數據結構特征[10]。本文中的分析對象為牛膽粉色譜的全輪廓譜圖,變量多達3 600個,通過主成分分析可將樣品之間的差異歸為1個主成分變量,極大的方便了不同制法樣品間色譜信息比較以及重點色譜范圍的尋找和確定。
各批樣品均可檢出并定量GCA,GDCA,TCA,TDCA成分,這4種成分平均質量分數分別為 (25.2±17.0)%,(4.1±3.4)%,(24.5±20.0)%,(5.2±3.8)%,平均總質量分數為(59.0±26.0)%,是牛膽粉中最主要的膽汁酸類成分。根據測定結果,牛膽粉中的GCA和TCA含量均高于GDCA和TDCA。
GCA和GDCA是牛膽粉中主要的甘氨結合型膽汁酸,兩者平均總質量分數為(29.3±17.6)%;TCA和TDCA是牛膽粉中主要的牛磺結合型膽汁酸,兩者平均總質量分數為(29.7±23.9)%。可見牛膽粉中的甘氨結合型膽汁酸與牛磺結合型膽汁酸的含量基本相當,這可以作為牛膽與羊膽等其他膽汁類藥材的重要區別特征之一。
本文中的自制牛膽粉為將收集到的牛膽汁過濾后直接進行冷凍干燥所得到,與市售牛膽粉相比4種主要膽汁酸成分的含量普遍較高,而市售樣品的色譜圖中色譜峰較多,其中在9~10 min處有1個較大的色譜峰。2015年版《中國藥典》[9]在人工牛黃項下對牛膽粉的規定為“由牛膽汁加工制成”,這一規定顯然較為模糊。本文的自制樣品與市售樣品存在顯著的差異,考慮到牛膽粉為常用藥材人工牛黃的重要原料,其質量直接影響到人工牛黃的產品質量,因此該差異的形成原因十分值得進行深入研究。此外,《中國藥典》中對人工牛黃原料牛膽粉的含量測定仍然為紫外-可見分光光度法測定膽酸含量,該方法原理為傅克反應,所測結果為具有相同化學結構的一類成分的含量,鑒于牛膽粉之于人工牛黃質量的重要性以及人工牛黃使用的廣泛性,建議《中國藥典》能夠使用專屬性更強,靈敏度更高的HPLC-ELSD法對牛膽粉中的最主要膽汁酸類成分GCA,GDCA,TCA,TDCA進行含量控制,以更有效和合理地對牛膽粉的質量進行評價與控制。
[參考文獻]
[1] 南京中醫藥大學. 中藥大辭典 [M]. 2版. 上海:上海科學技術出版社, 2006.
[2] Qiao X,Ye M,Pan D L,et al. Differentiation of various traditional Chinese medicines derived from animal bile and gallstone: simultaneous determination of bile acids by liquid chromatography coupled with triple quadrupole mass spectrometry [J]. J Chromatogr A, 2011, 1218:107.
[3] 張啟明. 牛膽粉的化學研究[J]. 藥物生物技術,1997, 4(1):58.
[4] 張能榮. 牛羊膽汁的質量研究[J]. 中草藥,1983, 14(7):15.
[5] Shoji H,Michiko T,Misako T,et al. Thin-layer chromatography and densitometry of bile components [J]. Chem Pharm Bull, 1964, 12(4):483.
[6] 彭新磊. 膽汁、膽酸和膽汁酸[J]. 生物學通報, 1998, 33(3):23.
[7] 齊曉慧,那日桑. 蒙成藥烏力吉-18的臨床應用概況[J]. 中國民族醫藥雜志, 1998, 10(3):34.
[8] 中華人民共和國衛生部藥典委員會. 中華人民共和國衛生部藥品標準?蒙藥分冊[S]. 呼和浩特:內蒙古科技出版社,1998.
關鍵詞:模式識別;本科教學;教學實踐;教學改革
隨著電子信息技術的迅速發展和信息處理自動化需求的不斷擴大,模式識別方法和技術在信息處理領域中的重要性越來越受到重視。在吸引了眾多研究者投身到模式識別研究領域的同時,模式識別的教學也從研究生教學逐漸延伸到了本科教學。模式識別作為計算機、電子信息技術等專業的專業基礎課程,已經在越來越多的高等院校開設。本科模式識別課程主要討論以統計學為基礎的模式識別理論和方法,內容包括:貝葉斯決策理論以及參數估計方法、以誤差函數最小化為原則的線性和非線性判別、近鄰規則、特征提取和選擇、聚類分析、神經網絡、支撐矢量機、隨機方法、非度量方法、獨立于算法的機器學習等內容[1]。由于模式識別研究領域的廣泛性,模式識別本科教學的內容和側重點的安排目前尚處于探索階段。模式識別領域的發展日新月異,這就要求教師在授業解惑的同時能夠與時俱進地介紹該領域的發展前沿,從而培養學生主動探索知識的興趣。
本文將結合本科模式識別教學的實踐,分析該課程在內容設置方面面臨的問題并給出相應的解決問題的建議;結合模式識別課程的特點,提出了以應用實例為先導的教學方法,以提高學生的學習興趣;針對不同類型的學生,提出了如何培養學生實踐能力和科研興趣的方法。
1模式識別教學內容的層次劃分和講授方法
模式識別是一門理論與實踐緊密結合的學科,其理論基礎涉及高等數學、線性代數、數理統計、矩陣論、隨機過程、工程優化方法、小樣本統計學習理論、模糊數學等學科[2]。然而除了高等數學、線性代數和數理統計,其他課程都是研究生階段才會開設的數學基礎課。這就使得本科的模式識別教學面臨著尷尬的局面:既不能花過多的時間講數學基礎知識,又要把以這些數學知識為基礎的內容講清楚。面對這一難題,我們在教學實踐中總結出了一套辦法,具體做法是將教學內容劃分為基礎型、前沿型兩類;并采用弱化公式推導,強調數學表達式物理含義的方法進行講授。
基礎型教學指的是已經發展完善的模式識別原理和方法。基礎型內容包括:貝葉斯決策理論、概率密度函數估計、線性判別、近鄰規則、獨立于算法的機器學習等內容。貝葉斯決策理論和概率密度函數估計是以數理統計為基礎的[3],這一部分也是模式識別的重點內容。線性判別是以高等數學和線性代數為基礎,同時涉及工程優化方法課程的部分內容。在這部分內容中,公式推導占據了相當大的篇幅,而且推導過程是學生可以理解和掌握的。對于基礎型的內容,可以采取理論推導和實際例子相結合的講授方式。在公式推導的過程中,尤其要強調公式的物理含義,同時給出幾個有趣的例子,在增強記憶加深理解的同時提高學生的學習興趣。
前沿型教學指的是正在發展中的模式識別原理和方法。前沿型內容包括:特征提取和選擇、聚類分析、神經網絡、支撐矢量機、隨機方法等內容。這部分內容或者是數學基礎超出了本科生的能力范圍,或者處于發展前沿,很多內容正處于探討階段。對于前沿型的內容,可以忽略公式推導過程,直接講授推導的結論以及結論的物理含義,同樣結合實際例子加深學生的理解。對于發展中的模式識別方法可以適當介紹該領域的發展前沿,在開拓視野的同時激發學生的科研興趣,引導部分學生從事感興趣的科學領域的研究。
2實例先導的教學方法
模式識別方法是為了解決信息處理中面臨的識別問題而提出的。在講授方法之前,首先要明確將要介紹的模式識別方法的應用背景和使用范圍,而不是像我們通常做的那樣,先介紹方法的理論基礎和流程,最后再給出一個例子,或者通過課后練習和作業的形式讓學生掌握課程介紹的理論和方法的應用。針對本科模式識別課程的特點,我們在教學實踐中摸索出了一套以實例為先導的教學方法,并與上機實驗和課程設計相結合,大大提高了學生的學習興趣和動手能力,取得了良好的教學效果。
實例先導的教學方法是在介紹每一章或者相關的幾章內容之前首先用一個實際的例子引出要學習的內容,在相關內容的學習結束之后給出解決實例問題的模式識別方法。例如:在講授貝葉斯決策理論之前,給出根據長度和光澤度等數值特征識別鮭魚和鱸魚的例子[4];在講授決策樹之前,給出根據顏色,形狀、尺寸等非度量特征識別水果的例子等等。通過學習,找到了解決這類問題的一般方法,同時學生也通過實例記住并理解了該方法的適用范圍。又例如在講授特征的選擇與提取這一章時,先不講特征空間的映射和變換,而是從幾個實例出發,說明并不是特征越多越好,而是要選擇合適的特征向量;特征的組合變換可以使復雜的分類問題轉化為簡單的問題等。從而讓學生更好地理解特征選擇和提取的目的和重要性。
在接觸到實際的模式識別問題時,會引發學生的思考。在授課過程中,教師可以針對具體問題組織學生進行討論,看是否能夠利用已學過的模式識別方法解決該問題。若可以解決,則引導學生分析用已學方法解決該問題時存在的不足,從而引出下面將要介紹的新方法。這樣,在介紹新方法的同時,學生會很自然地將新方法與舊的方法進行比較,分析各種方法的優劣,有利于學生對教學內容的深入理解和掌握。這種方法在講授解決同一類模式識別問題的不同方法時是適用的。如在講授貝葉斯決策時,可以通過對比的方式介紹幾種決策規則的特點,又如在講授線性判別方法中各種形式的感知器算法時,也可以對比學習各種算法的優劣。若該模式識別問題不能用已學的方法解決,則引導學生分析該模式識別問題的特點,思考為何必須引入新的模式識別方法來解決該問題,學生是否能夠提出自己的解決方案。在分析和思考之后,教師再將解決該問題的思路引入到下面將要介紹的新方法上。這種方法在講授解決不同類型的模式識別問題時是適用的。如在講授非度量模式識別方法時,面對非度量語義屬性的模式識別問題是前面介紹的方法無法解決的,要引入非度量模式識別方法加以解決。
因此我們建議在教材的編寫上可以嘗試采用實例先導的方法。首先在引言部分給出一個實際例子,然后在介紹方法的部分結合理論分析給出解決實例問題的方法。這種方法有利于提高學生的學習興趣,增強記憶,加深理解。
3實踐能力和科研興趣的培養
模式識別是一門理論和實踐緊密結合的科學,該學科的發展日新月異,在計算機和信息處理領域的地位越來越重要。因此,在模式識別課程的教學過程中要注重學生實踐能力和科研興趣的培養。在教學實踐中,我們采用了上機實驗和科學報告相結合的教學方式。
掌握各種模式識別方法的原理和流程是本科模式識別教學的第一個階段。在此基礎上,我們要求學生在計算機上實現模式識別方法并用于解決實際的模式識別問題。在上機實現的過程中,學生不僅需要掌握模式識別問題在計算機中的表示方法和識別結果的展示形式,尤其重要的是學生需要對模式識別方法的每一個細節都要深入理解和掌握才能將算法實現。在上機教學中,我們采用了Matlab編程環境實現課程中介紹的模式識別方法。Matlab的編程語言簡單高效,而且提供了功能強大的圖形展示功能[5]。例如在貝葉斯決策和線性分類器的上機實驗中,學生可以利用畫圖函數用不同的顏色和符合標記不同類別的樣本,可以輕松地畫出決策面,這種可視化的分類結果展示形式不僅提高了學生的學習興趣,而且加深了學生對模式識別方法及其特點的理解。
在學生成績考核中,除了筆試成績我們還增設了上機作業成績和科學報告成績兩個部分。上機作業的內容是要求學生從若干個上機題目中選擇有興趣的實現一個簡單的模式識別系統。例如設計實現貝葉斯分類器、線性分類器、神經網絡分類器、決策樹等。科學報告可以有兩種形式,要求學生或者在模式識別領域的主流英文期刊上選擇感興趣的英文文獻,將其翻譯為中文;或者就模式識別領域的一個感興趣的話題談談自己的看法和主張。通過上機作業和科學報告的形式,學生的動手能力得到了良好的鍛煉。不僅提高了學生的學習熱情,而且引導學生積極思考,不少同學在科學報告中提出了自己的學術看法和主張,有些內容頗具獨到的見解。
在學生成績考核中,除了筆試成績我們還增設了上機作業成績和科學報告成績兩個部分。上機作業的內容是要求學生從若干個上機題目中選擇有興趣的實現一個簡單的模式識別系統。例如設計實現貝葉斯分類器、線性分類器、神經網絡分類器、決策樹等。科學報告可以有兩種形式,要求學生或者在模式識別領域的主流英文期刊上選擇感興趣的英文文獻,將其翻譯為中文;或者就模式識別領域的一個感興趣的話題談談自己的看法和主張。通過上機作業和科學報告的形式,學生的動手能力得到了良好的鍛煉。不僅提高了學生的學習熱情,而且引導學生積極思考,不少同學在科學報告中提出了自己的學術看法和主張,有些內容頗獨到的見解。
4結語
本科模式識別教學由于學生的數學基礎有限而面臨著兩難的境地。既要把原理和方法講清楚,又不能過多的涉及復雜的數學推導,這給教學帶來很大困難。在教學實踐中,我們把教學內容劃分為基礎型、前沿型兩類,并提出了弱化公式推導,強調公式的物理含義,以及結合實例增強記憶的教學方法。為了提高學生的學習興趣,加深理解,我們提出了實例先導的教學方法。用實際例子引導學生思考,加深學生對模式識別方法應用背景和適用范圍的理解。模式識別是實踐性很強的科學,并且該學科的發展十分迅速。在教學實踐中,我們十分重視學生動手能力和科研興趣的培養。通過上機作業和科學報告的形式引導學生積極動手,積極思考。
參考文獻:
[1] 邊肇祺,張學工. 模式識別[M]. 2版. 北京:清華大學出版社. ,2002:9-303.
[2] 顧波. 模式識別本科教學方法淺談[J]. 中國科教創新導刊.,2010(4):68.
[3] Andrew R. Webb. 統計模式識別[M]. 2版. 王萍,等,譯. 北京:電子工業出版社,2004:1-10.
[4] Richard O. Duda,Peter E. Hart,David G. Stork. 模式分類[M]. 2版. 李宏東,姚天翔,等,譯. 北京:機械工業出版社. ,2003.
[5] 楊淑瑩. 模式識別與智能計算:Matlab技術實現[M]. 北京:電子工業出版社,2008:1-300.
Teaching Practices on Undergraduate Patten Recognition Course andCurriculum Reforming
QI Yu-tao1,2, LIU Fang 1,2, JIAO Li-cheng 2
(1. School of Computer Science and Technology, Xidian University, Xi’an 710071, China; 2. Institute of Intelligent Information Processing, Xidian University, Xi’an 710071, China)
關鍵詞:仿生;模式識別;神經網絡;分類器
中圖分類號: F224-39 文獻標識碼: A 文章編號: 1673-1069(2017)02-154-2
1 仿生模式識別的引入
為了適應現實需要,人們開始希望機器能夠代替人類完成某些繁重的識別工作。我們通常所說的模式識別就是指運用機器進行分類識別。以往的識別方法,多數是建立在“分類劃分”的基礎上,根據給定的分類準則來找尋“最優的分類界面”,具體的實現算法也都是注重于不同類樣本的區別,即,一類樣本與有限種類已知樣本之間的區分。基于此出發點的局限性,識別當中出現的問題是顯而易見的:首先,如果遇見未學習過的新事物,常常會牽強地認為它是某一類已學過的舊事物;其次是對未學習過的新事物進行學習時,往往會破壞掉原來的規矩,打亂舊事物的識別。針對以上的缺陷,才有了仿生模式識別的概念。仿生模式的目標是找到同類事物的最佳覆蓋面。
2 仿生模式識別在神經網絡中的超曲面劃分
2.1 多權值神經網絡的高維封閉曲面
(5)式中Wji和W′ji是方向權值,它們決定了曲面的方向,W′ji是核心權值,它決定了曲面的幾何中心。Xj為第j個輸入端的輸入;n是輸入空間維數;p為冪參數,用以控制曲面的彎曲程度;s表示單項正負號方法的參數,若S=0單項符號只能為正,若S=1時單項的符號和Wji的符號相同;若設置了S=0,則該式就變成了一個封閉超曲面的神經元。f函數的基設置為一個定值時,輸入點的軌跡是一個封閉的超曲面,其核心位置由決定。
用p值來改變封閉超曲面的形狀,如圖1~圖8所示。若使權值取不同的值,就相當于將封閉曲面在不同方向進行拉伸或壓縮,θ取值不同,則偏離核心位置的程度也不同。
2.2 通用超曲面神經網絡的計算式
上式中,Ymi(t+1)是輸入空間的第i個神經元在輸入第m個對象,在t+1時間的輸出狀態值。i是神經元數量,最大是1024。Wji與W′ji是第j個輸入節點至第i個神經元的“方向”權值和“核心”權值;fki是第i個神經元的輸出非線性函數,下標ki是第i個神經元的非線性函數在函數庫中的序號;Imj表示的是第m個輸入對象中的第j個輸入值;W′cgi和是Wcgi第cg個(取值范圍[1,256])神經元輸出到第i個(取值范圍[1,1024])神經元的權值“核心”和“方向”權值;p表示的是冪參數;而S是單項正負符號規則;(t)為當輸入為第m個對象時第cg個神經元在時間t的輸出狀態值,θ([1,1024])是第i個神經元的閾值;λi是神經元非線性函數坐標比例因子;Ci是神經元輸入規模比例因子。
由傳統的BP神經網絡和經向基RBF神經網絡及超曲面神經網絡對圖9中三類事物的分類邊界分別為折線和圓環及橢圓的并,可見超曲面神經網絡具有更準確的分類效果。
3 總結
仿生模式識別是對事物逐類分別訓練“認識”的過程。它的顯著優點是對于沒有經過訓練的對象會拒識,而新增加樣本的訓練不會影響到原有的識別。因此,仿生模式識別,較之原有的識別模式識別效果更佳,可以廣泛應用在人臉識別,語音識別等眾多領域。
參 考 文 獻
[1] 覃鴻,王守覺.多權值神經元網絡仿生模式識別方法在低訓練樣本數量非特定人語音識別中與HMM及DTW的比較研究[J].電子學報,2005(5).