前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經網絡的一般步驟主題范文,僅供參考,歡迎閱讀并收藏。
2. 應用領域安防
實時從視頻中檢測出行人和車輛。
自動找到視頻中異常的行為(比如,醉酒的行人或者逆行的車輛),并及時發出帶有具體地點方位信息的警報。
自動判斷人群的密度和人流的方向,提前發現過密人群帶來的潛在危險,幫助工作人員引導和管理人流。
醫療
對醫學影像進行自動分析的技術。這些技術可以自動找到醫學影像中的重點部位,并進行對比比分析。
通過多張醫療影像重建出人體內器官的三維模型,幫助醫生設計手術,確保手術
為我們每個人提供康建議和疾病風險預警,從而讓我們生活得更加健康。
智能客服
智能客服可以像人一樣和客戶交流溝通。它可以聽懂客戶的問題,對問題的意義進行分析(比如客戶是詢問價格呢還是咨詢產品的功能呢),進行準確得體并且個性化的回應。
自動駕駛
現在的自動駕駛汽車通過多種傳感器,包括視頻攝像頭、激光雷達、衛星定位系統(北斗衛星導航系統BDS、全球定位系統GPS等)等,來對行駛環境進行實時感知。智能駕駛系統可以對多種感知信號進行綜合分析,通過結合地圖和指示標志(比如交通燈和路牌),實時規劃駕駛路線,并發出指令,控制車子的運行。
工業制造
幫助工廠自動檢測出形態各異的缺陷
3. 概念什么是人工智能?
人工智能是通過機器來模擬人類認知能力的技術。
人工智能的三種訓練方式分別是監督學習、非監督學習、強化學習。下文會一一介紹。
二、這是不是鸞尾花(分類器)1. 特征提取人類感官特征
花瓣數量、顏色
人工設計特征
先確定哪些特征,再通過測量轉化為具體數值
深度學習特征
這里先不提及,文章后面會說
2. 感知器
老師給了一道題:
要區分兩種鸞尾花,得畫出一條直線區分兩類花,你可以畫出無數條直線,但是哪條才是最好的呢?
怎么辦呢?我可是學渣啊,靠蒙!
隨便找三個數a=0.5、b=1.0、c=-2 帶入 y = ax[1] + bx[2] + c,
每朵花的兩個特征也代入x[1]、x[2],比如帶入(4, 1) 得出 y[預測] = 1,此時 y[實際] = 1 (樣本設定變色鸞尾花為 1,山鸞尾為 -1 ),所以y[實際] – y[預測] = 0.
重復以上兩步,得出所有的『實際值和預測值的差距的綜合,記為 Loss1
可怎么知道是不是最優的直線呢?繼續猜啊!繼續懵!像猜世界杯一樣猜就好了。
通過沿 y = ax[1] + bx[2] + c 梯度(梯度就是求導數,高中有學的!)下降的方向繼續猜數字,具體過程大概是這樣子的:
上述所屬的實際值和預測值的差距 實際上是一種損失函數,還有其他的損失函數,比如兩點間直線距離公式,余弦相似度公式等等可以計算預測結果和實際結果之間的差距。
劃重點:損失函數就是現實和理想的差距(很殘酷)
3. 支持向量機
*判斷依據的區別也導致了損失函數的不同(但依舊是猜)
直觀的說,縫隙(上圖的分類間隔)越大越好
4. 多分類
如果有多種花怎么辦?
一趟植物課上,老師請來了牡丹鑒別專家、荷花鑒別專家、梅花鑒別專家。老師拿出了一盤花給各個專家鑒定,牡丹角色這是牡丹的概率是0.013、荷花專家角色這是荷花的概率是0.265、梅花專家角色這是梅花的概率是0.722。
老師綜合了各位專家的意見后,告訴同學們,這是一盤梅花。
小明:這老師是不是傻,一朵花是啥都不知道,還要請三個專家
老師:你給我滾出去
實際計算過程就是通過用 2.2 和 2.3 等方法訓練的二分類器,分別輸出對應的分類值(比如三種花的分類器分別輸出-1,2,3),那怎么把這些分類值轉化成概率呢?這就要用到歸一化指數化函數 Softmax(如果是二分類就用 Sigmoid函數),這里就不拿公式來說,可以直觀的看看書中這個表格就懂了:
5. 非監督學習第 2.2 能從預測值和實際值的差別判斷”是否猜對了”,是因為生物老師告訴了學渣,哪些樣本是山鸞尾花,哪些變色鸞尾花。但如果老師連樣本實際的類別也不告訴學渣(非監督式學習),學渣不知道樣本分別是什么花。
那該怎么辦呢?
機器學習的入門課程總是在講鸞尾花,也是夠煩的。
這里我們換個場景:
假如你是某直播老板,要找一堆小主播,這時候你有一堆應聘者,然而你只有她們的胸圍和臀圍數據。一堆8份簡歷擺在你面前,你是不知道哪些更加能干( capable啊 ! ) 的,更能吸引粉絲。你也沒空全部面試,那應該怎么挑選呢?
這時候你把她們的胸圍和臀圍都標準在一張二維坐標圖上:
這是你隨手一劃,把她們分成兩組,可以說“聚成兩類了”。
用某種計算方式(比如平均值)找到這個聚類的中心。點離聚類中心越近,代表越相似。
求出每個聚類中的點到藍色聚類中心點和黃色聚類中心的距離
如果一個點離黃色聚類中心更近卻被你隨手劃到了藍色分組(上圖用紅色邊框標出的小方塊),那么就把它劃入黃色分組。
這時因為分組范圍和分組內包含哪些小姐姐都發生了變化。這時候你需要以 步驟3 的方法重新計算聚類的中心
重復步驟 4 (算點中心距離)-> 重復步驟 5 (調整黃色小姐姐們和藍色小姐姐們)-> 重復步驟 3 (算中心),一直循環這個過程直到藍色和黃色聚類下所包含的小姐姐不再發生變化。那么就停止這一循環。
至此,小姐姐們已經被分為兩大類。你可以得出兩類小姐姐:
計算機在沒有監督的情況下,成功把小姐姐們分成兩類,接下來就可以在把兩種主播各投放2個到平臺看看誰更能干。效果更好的,以后就以那個聚類的樣本特征擴充更多能干的主播。
小明:有什么了不起的,我一眼就能看出黃色小姐姐更能干
老師:你給我滾出去
上面聚類小姐姐的算法就叫做 K 鄰近算法,K 為要聚類的數量(這需要人工指定),上述例子 K=2.那么如果分成三類就是 K=3,訓練過程可以看下圖,有個直觀的了解:
三、這是什么物品(圖像識別)1. 特征提取人類感官特征
花瓣顏色、花瓣長度、有沒有翅膀(區分貓和小鳥)、有沒有嘴巴和眼睛(飛機和小鳥)
感官的特征通過量化得到顏色(RGB值)、邊緣(圓角、直角、三角)、紋理(波浪、直線、網格)數值特征
人工設計特征
深度學習特征
通過卷積提取圖像特征
劃重點:卷積的作用就是提取圖像有用信息,好比微信把你發出的圖片壓縮了,大小變小了,但是你依舊能分辨出圖像的主要內容。
1維卷積 1*5+2*4+3*3=22、1*4+2*3+3*2=16、1*3+2*2+3*1=10
2維卷積 1*2+3*0+2*4+4*2=28…
通過卷積就可以得到圖像的特征信息,比如邊緣
垂直邊緣檢測
水平邊緣檢測
方向梯度直方圖
2. 深度學習和傳統模式分類的區別既然有傳統模式分類,為什么還要神經網絡呢?
區別就在于傳統的模式分類需要人為設置特征,比如花瓣長度、顏色等等。而深度學習省略掉人工設計特征的步驟,交由卷積操作去自動提取,分類器的訓練也同時融入到神經網絡當中,實現了端對端的學習
劃重點:端對端學習(End to End)就是從輸入直接得出輸出,沒有中間商,自己賺差價。
3. 深(多)層神經網絡存在的問題一般來說,神經網絡層數增多,會提高準確率。但是,網絡層數加深導致:
過擬合學渣把高考預測試題的答案都背一遍而不理解,考試的時候,如果試題是考生背過的,那么考生就能答對;如果沒背過那么考生就不會回答了。我們就可以說,學渣『過擬合了預測試題。
與之對應的是:欠擬合渣得不能再渣的人,連預測試題都背不下來,即使考試試題和預測試題一模一樣,他也只能答對30%。那么就可以說這種人~~欠揍~~欠擬合。
有興趣的還可以了解一下梯度彌散和梯度爆炸下面是網上很火很勵志的一個公式,權重在多層網絡中相乘,比如每一層的權重都是0.01,傳遞100層 就是 0.01 的100 次方,變得非常小,在梯度下降 Gradient Descent 的學習過程中,學習將變得非常慢。(好比從一個碗頂部放下一個小球,在底部徘徊的速度會越來越慢)
非凸優化學習過程可能在局部最小值(極小值)就停止了,因為梯度(斜率)為零。在局部最低停止而不是全局最低停止,學習到的模型就不夠準確了。
看圖感受一下
你說的底不是底,你說的頂是什么頂
解決的辦法
均勻初始化權重值(Uniform Initialization)、批歸一化(Batch Normalization)、跳遠鏈接(Shortcut)涉及到比較多數學邏輯,這里就不展開說明了。
4. 應用人臉識別
自動駕駛把汽車頂部拍攝到的圖片切分層一個個小方塊,每個小方塊檢測物體是車還是行人還是狗,是紅燈還是綠燈,識別各種交通標識等等。再配合雷達等判斷物體距離。
四、這是什么歌(語音識別)1. 特征提取人類感官特征音量、音調、音色
通過采樣、量化、編碼。實現聲波數字化(聲波轉電信號)
人工設計特征梅爾頻率在低頻部分分辨率高,高頻部分分辨率低(這與人耳的聽覺感受是相似的,即在一定頻率范圍內人對低頻聲音比較敏感而對高頻聲音不敏感)。
關系為:
在每一個頻率區間對頻譜求均值,它代表了每個頻率范圍內聲音能量的大小。一共有26個頻率范圍,從而得到26維的特征。倒譜操作后,得到 13 維的梅爾頻率倒譜系數(Mel-FrequencyCepstralCoefficients,MFCCs)
深度學習特征通過 3.1 所介紹的 1維卷積進行特征提取
2. 應用音樂風格分類
輸入:音頻文件特征:聲音特征輸出:音樂種類
語音轉文字
輸入:音頻文件特征:聲音特征輸出:聲學模型(比如26個英文字母)
再把聲學模型送入另外的學習器
輸入:聲學模型特征:語義和詞匯輸出:通順的語句(可以查看第6點,如何讓計算機輸出通順的語句)
聽歌識曲通過窗口掃描(把音樂分割成一小段一小段的),然后通過4.1說的方法提取這一段的特征,就得到一個特征向量。對數據庫的歌和用戶錄音的歌做同樣的操作得到特征向量,然后兩兩之間計算相似度(兩個向量的距離可以用余弦公式算夾角大小或者兩點間距離公式來算)
五、視頻里的人在做什么(視頻理解,動作識別)1. 介紹視頻,本質是由一幀幀圖片連續組成的,因為人視覺的暫留效應(Persistence of vision,人眼在觀察景物時,光信號傳入大腦神經,并不立即消失,讓人產生畫面連續的印象),看上去是連續的,也就是視頻。識別視頻里面有什么物體,可以用上文說過的圖像識別和分類方法去實時分析單幀圖像,比如:
但是視頻相對于圖像有一個更重要的屬性:動作(行為)。
怎么從一個連續的視頻分析動作呢?
舉個例子,像上圖那只二哈,腿部的像素點相對于黃色的方框(框和狗相對靜止)在左右”移動”,這里的”移動”我們引入一個概念——光流(一個像素點從一個位置移動到另一個位置),通過像素點移動形成的光流作為神經網絡的訓練特征(X),『奔跑作為訓練目標值(Y),經過多次的迭代訓練,機器就可以擬合得出一個 Y = f(X) 用于判斷視頻中的物體(Object)是否在奔跑。
2. 光流假設,1)相鄰兩幀中物體運動很小2)相鄰兩幀中物體顏色基本不變
至于神經網絡是怎么跟蹤某個像素點的,這里不展開說明。
第 t 時刻的點指向第 t+1 時刻該點的位置,就是該點的光流,是一個二維的向量。
整個畫面的光流就是這樣:
整個視頻的光流(軌跡)是這樣的
不同的虛線代表圖像上某個點移動的軌跡
假設視頻寬width、高 height、一共有 m 幀,那么該視頻可以用 width * height * m * 2 的張量(就是立體的矩陣)來表示,把向量喂到神經網絡即可進行分類訓練。
進一步優化,可以把光流簡化為8個方向上的,把視頻某一幀的所有光流累加到這八個方向上得出某一幀的光流直方圖,進一步得出 8 維的特征向量。
六、一段文字在表達什么(自然語言處理)1. 特征提取
這里有4個句子,首先進行分詞:
去掉停用詞(副詞、介詞、標點符合等等,一般在文本處理上都有一個停用詞表)
編碼詞表
句子向量化
這樣就得到一個句子19 維 的 特征向量,再把這19維的特征向量用普通卷積網絡或者 LSTM 循環神經網絡作為 X 讀入(喂它吃東西),文本的分類(比如積極、消極)作為訓練標簽值 Y,迭代訓練得到的模型可以用于情感分析或文本分類等任務。
2. 進階詞向量化厲害-牛逼、計算機-電腦是同義詞。光從上面的步驟,我們可能認為厲害和牛逼是兩個完全不一樣的詞語,但其實他們是近似的意思,怎么才能 AI 學習知道這點呢?需要從多個維度去進一步給詞語更豐富的內涵,比如:
舉例來說,男性用1表示,女性用0表示,不帶性別傾向就是0.5。多個維度擴展之后,就得到“男人”這個詞的特征向量(1,0, 0.5,0,1)
逆向文檔頻率一個詞在一類文章出現的多,而在另外分類的文章出現的少,越能說明這個次能代表這篇文章的分類。比如游泳在體育類的文章中出現的多(2次),而在工具類的文章出現的少(0次),相比其他詞語(1次)更能代表體育類的文章。
假設句子中有 N 個詞, 某個詞出現次數為 T,一共有 X 個句子,該詞語在 W 個句子出現,則逆向文檔頻率 TF-IDF 為 T/N * log(X/W)
3. 應用
七、讓計算機畫畫(生成對抗網絡)從前有個人,以賣臨摹名家的畫來賺錢。他開始臨摹一副名畫:
第一次他畫成這樣子了:
鑒賞家一眼就看出來是假的,他不得不回去畫第二幅畫、第三幅畫…
經過了10萬次”畫畫-鑒別”的過程,這個臨摹者畫出來的畫,鑒賞家居然認為這是真的原作,以高價買入了這副畫。
這種生成(畫畫)- 鑒別(鑒偽)的模式正是生成對抗網絡(GAN)的核心。
通過生成器,把隨機像素點有序排列形成具有意義的畫面,再通過鑒別器得出生成的畫面的分類、和真實畫面之間的差距,并告訴生成器要往什么方向去優化。多輪的訓練之后,生成器就學會了畫『真畫了。
計算機是怎么把隨機像素點變成有意義的畫面的呢?我們通過一個簡化的例子來看看。
直線上一些均勻分布的點,經過 y=2x+1變換后變成了非均勻分布。一張隨機排布的像素點畫面,經過某個f(x) 變換后就會變成具有某種意義的畫面,而生成器就是不停地去近似f(x), 就像 2.2 感知器擬合一條直線那樣。
下圖為計算機生成手寫數字的過程
劃重點:函數可以變換數據分布(庫克說:可以把直的變成彎的)
八AlphaGo是怎么下棋的?(強化學習)1. 粗略認知監督/無監督訓練:盡可能讓每一次任務正確強化學習:多次任務是否達成最終目標
每一次任務都準確,不就是能達成最終目標嗎?我們來看一個例子:
一家批發商店的老板愛麗絲要求她的經理比爾增加銷售額,比爾指導他的銷售員多賣一些收音機,其中一個銷售員查爾斯弄到了一個可以獲利的大單,但是之后公司因為供應緊缺無法交付這些收音機。
應該責怪誰呢?
從愛麗絲的角度來看,查爾斯的行為讓公司蒙羞了(最終任務沒完成)。
但是從比爾的角度,查爾斯成功地完成了他的銷售任務,而比爾也增加了銷量(子任務達成)。——《心智社會》第7.7章
2. AlphaGo下圍棋,最古老的辦法是決策樹,從左上角的位置開始到右下角的位置遍歷,每一個空的位置就是一個分支,然后預測每種棋局贏的概率,找出最大概率的走法玩。這就是落子預測器。
但是由于圍棋19X19的超大棋盤,空間復雜度高達10的360次方,要窮盡所有的走法幾乎是不可能的,如大海撈針。
要降低復雜度,關鍵是要降低搜索的廣度和深度。
我們栽培一顆小盆栽的時候,如果不對枝葉進行修剪,那么養分就會浪費在沒長好的枝條上。需要及時對枯萎或者異常的枝條進行修剪以保證養分往正常(或者說我們希望它生長的方向)枝條上輸送。
同樣的道理,有限的計算機算力如果浪費在窮盡所有圍棋走法上,將導致棋局推演非常慢,而且耗費大量的時間也難以找到最優的方案。
是否可以通過 “修剪” 落子選擇器這顆龐大的決策樹,加快較優落子方案的選擇呢?怎么判斷哪些是好的”枝條”,哪些是壞的”枝條”呢?這就需要棋局價值評估器(哪個棋盤的贏的概率更大),把沒有價值的棋局先去掉不再往下遍歷,這就同時減少了搜索的廣度和深度。
其中,落子預測器有個名稱,叫做政策網絡(policy network)價值評估器有個名稱,叫做價值網絡(value network)政策網絡(policy network)利用蒙特卡洛搜索樹從當前棋局推演(隨機下棋)到最終的棋局,最終勝則回報為正,反之回報為負。之后該算法會反向沿著該對弈過程的落子方案步步回溯,將路徑上勝者所選擇的落子方案分數提高,與此對應將敗者的落子方案分數降低,所以之后遇到相同局面時選擇勝者方案的概率就會增加。因此可以加速落子選擇,稱為快速走子網絡。
通過 政策網絡 + 價值網絡 + 蒙特卡洛搜索樹 實現最優落子方案的選擇,同時兩個機器人互相對弈,這樣就不停地訓練網絡,學習落子方案。
3. 定義接下來說一下枯燥的定義
什么是強化學習?
當我們關注的不是某個判斷是否準確,而是行動過程能否帶來最大的收益時使用強化學習(reinforeement learning)。比如在下棋、股票交易或商業決策等場景中。
強化學習的目標是要獲得一個策略(poliey)去指導行動。比如在圍棋博弈中,這個策略可以根據盤面形勢指導每一步應該在哪里落子;在股票交易中,這個策略會告訴我們在什么時候買入、什么時候賣出。
一個強化學習模型一般包含如下幾個部分:
一組可以動態變化的狀態(sute)
對于圍棋棋盤上黑白子的分布位置對于股票交易來說,就是股票的價格
一組可以選取的動作(metion)
對于圍棋來說,就是可以落子的位置;對于股票交易來說,就是每個時間點,買入或者賣出的股票以及數量。
一個可以和決策主體(agent)進行交互的環境(environment)這個環境會決定每個動作后狀態如何變化。
棋手(主體)的落子會影響棋局(環境),環境給主體獎勵(贏)或懲罰(輸)操盤手(主體)的買入或賣出會影響股票價格(環境,供求關系決定價格),環境給主體獎勵(賺錢)或懲罰(虧錢)
關鍵詞:語義標記;三維人臉;網格標記;隨機森林;正方形切平面描述符
DOIDOI:10.11907/rjdk.171139
中圖分類號:TP317.4
文獻標識碼:A 文章編號:1672-7800(2017)006-0189-05
0 引言
在計算機視覺與圖像領域,對于二維圖像人臉的研究(包括人臉識別、人臉檢測、人臉特征點標記等)非常多,并且取得了很大進展。特別是近幾年,隨著深度學習算法的應用,對于二維人臉的研究有了極大突破[1]。然而,相對于二維人臉,人們對三維人臉研究較少。三維人臉的研究是以人臉的三維數據為基礎,結合計算機視覺和計算機圖形學,充分利用三維人臉的深度信息和其它幾何信息,解決和克服現有二維人臉研究中面臨的光照、姿態、表情等問題[3]。三維人臉模型標記與分割是將三維人臉網格模型上的頂點進行分類,將人臉劃分為幾個區域,例如眉毛、眼睛、鼻子、嘴等。對這些區域的標記與分割對三維人臉重建、特征點定位和表情動畫等方面的研究都起著重要作用。三維人臉的研究是模式識別和圖形學領域活躍且極具潛力的研究方向之一,在影視、游戲動畫、人臉識別、虛擬現實、人機交互等方面都有著廣泛應用[2-3]。
目前,許多對三維人臉方面的研究,包括三維人臉重建、識別與跟蹤、姿態估計及特征點標記等,都是基于深度圖的方法[4-7]。Fanelli等[6-8]提出一種方法,將從深度數據估算人臉姿態表達為一個回歸問題(Regression Problem),然后利用隨機森林算法解決該問題,完成一個簡單深度特征映射到三維人臉特征點坐標、人臉旋轉角度等實值參數的學習。通過訓練數據集建立隨機森林,該數據集包括通過渲染隨機生成姿態的三維形變模型得到的5萬張640*480深度圖像。在實驗部分,對Fanelli等提出的從深度圖中提取特征的方法與本文的特征提取方法進行了對比。與文獻[6]中的方法相比,Papazov[9]提出了一個更為復雜的三角形表面patch特征,該特征是從深度圖重建成的三維點云中計算獲得的,主要包括兩部分:線下測試和線上測試。將三角形表面patch(TSP)描述符利用快速最近鄰算法(FLANN)從訓練數據中尋找最相似的表面patches。
在計算機圖形學領域,網格理解在建立和處理三維模型中起著重要作用。為了有效地理解一個網格,網格標記是關鍵步驟,它用于鑒定網格上的每個三角形屬于哪個部分,這在網格編輯、建模和變形方面都有著重要應用。Shapira等[10]利用形狀直徑函數作為分割三維模型的一個信號,通過對該信號的計算,定義一個上下文感知的距離測量,并且發現眾多目標之間的部分相似性;隨后,Sidi等[11]提出一個半監督的聯合分割方法,利用一個預定義的特征集實現對目標的預先分割,然后將預先做好的分割嵌入到一個普通空間,通過使用擴散映射獲得最終的對網格集的聯合分割。網格標記的一個關鍵問題是建立強大的特征,從而提高各類網格模型標記結果的準確性,增加泛化能力。為了解決該問題,Kalogerakis等[12]提出采用一種基于條件隨機場算法的方法來標記網格。通過對已標記的網格進行訓練,成功地學習了不同類型的分割任務;Xie等[13]提出一種三維圖形快速分割與標記的方法,用一系列特征描述法和極端學習器來訓練一個網格標記分類的神經網絡;Guo等[14]提出用深度卷積神經網絡(CNNs)從一個大的聯合幾何特征中學習網格表示方式。這個大的聯合幾何特征首先被提取出來表示每個網格三角形,利用卷積神經網絡的卷積特征,將這些特征描述符重新組織成二維特征矩陣,作為卷積神經網絡的輸入進行訓練與學習。
本文提出一種新的幾何特征描述符(正方形切平面描述符)來表示人臉模型上的頂點特征,利用隨機森林算法對三維人臉模型頂點進行訓練,實現對人臉模型上頂點的分類(屬于鼻子或是眼睛區域等),從而實現三維人臉模型的區域標記。這種新描述符并非從深度圖提取的簡單矩形區域特征,而是直接從三維人臉模型計算獲得,在人臉的姿勢、尺寸、分辨率的改變上具有一定魯棒性。因此,訓練過程是在三維人臉模型上執行的,這種數據相對于真實的深度圖數據更容易獲取(例如在文獻[6]中使用的訓練數據)。
1 特征描述符與三維人臉區域分割
1.1 正方形切平面描述符
從一個三維人臉模型M的所有頂點上隨機選取一個種子點P,根據三維人臉模型的幾何結構,計算該種子點的法向量,此時根據一點和法向量即可確定一個切平面。確定正方形的邊長L和正方形的方向。正方形的方向(正方形局部坐標系)是根據全局坐標系下建立的正方形,通過法向量轉換而成。建立正方形局部坐標系,以便于計算三維人臉上的點到正方形的投影距離,減少程序運行時間,從而可以確定一個正方形切平面塊S。在這種情況下,根據正方形切平面塊S,可以計算出一個簡單且具有魯棒性的幾何描述符V。將正方形邊長分成K等份,正方形則細分為K2個小正方形,如圖1(a)所示。模型M上的所有點向正方形切平面塊上投影,如果投影點在正方形內,此點則肯定在K2個小正方形中的某一個正方形內,稱該點屬于該小正方形或者稱小正方形包含該點。每個小正方形的描述符是其包含所有點投影距離的平均值。考慮到人臉模型的幾何特征,有些人臉部分存在于正方形上面,有些部分則存在于正方形下面,因此每個點的投影距離有正負之分。整個正方形切平面塊的描述符V是所有小正方形描述符的簡單串聯。在實驗部分,本文將對邊長L和劃分的小正方形個數K2對分類的準確率進行對比研究。
使用每個小正方形包含所有點的平均投影距離作為描述符,使得該描述符對噪聲、數據分解和分辨率上的變化具有魯棒性,這在實驗部分有所體現。許多三維幾何特征已經在一些文章中被提出,包括Spin Images(SI)[15]、3D shape context (SC)[16]、 SHOT[17]和MeshHOG[18-19]。這些描述法都根據局部坐標系定義并且依賴于大量的平面法向量,使噪聲數據對結果產生一定影響。和以上描述法相比,本文描述符取平均投影距離,并且正方形取的足夠大,使描述法更加簡單、有效且具有魯棒性。除三維幾何特征外,許多文章也對三維模型投影生成的深度圖進行了特征選取和處理。例如,Fanelli等[6-8]在深度圖中選取patch,然后在patch中隨機選取兩個矩形框F1、F2,如圖2所示。以像素點的深度值和幾何法向量的X、Y、Z值作為隨機森林的4個特征通道,F1和F2中所有像素點某個特征通道平均值的差值作為隨機森林每棵樹節點的二元測試。二元測試定義為:
本文在實驗部分對上述特征選取方式與本文提出的正方形描述符在三維人臉區域標記上的結果進行了比較。
1.2 數據庫與人臉區域分割
訓練階段的正方形切平面描述符均取自于高分辨率的人臉網格模型,這些訓練模型由Basel Face Model (BFM)[20]生成。BFM是一個公開、可獲得的基于PCA的三維形變模型,由200個人臉對象的高分辨率三維掃描創建而成。通過從一個正態分布取樣的PCA系數,BFM能被用來生成任意數量的隨機網格人臉。此外,在所有生成的人臉網格模型上,對應頂點的索引都是一樣的。例如,在所有訓練模型上,在鼻尖的頂點有相同的索引數字,這將帶來諸多便利。對于訓練模型,只需在任意一個BFM人臉模型上進行一次人臉區域的手動標記,即可知道每個訓練模型要分割的區域上各點的索引,如每個模型鼻子區域的所有頂點索引都是一樣的。
對訓練模型進行手動分割標記(只需分割標記一次),將一個三維人臉模型分割為10個區域:左眉毛、右眉毛、左眼睛、右眼睛、左臉頰、右臉頰、鼻子、上嘴唇、下嘴唇、下巴,剩下部分屬于其它區域。如圖3所示,對三維人臉模型進行區域分割,不同的分割區域用不同顏色進行標記,每個區域包含很多三維人臉模型頂點。由于很多三維人臉模型額頭部分包含的頂點相對較少,特征信息也相對較少,所以將額頭區域劃分至其它區域。人臉模型的每個區域包含的所有頂點屬于同一類,根據上述BFM數據庫特點可知,數據庫中任何一個人臉模型每個區域包含的所有頂點索引都是一致的。
2 隨機森林算法分類標記人臉區域
2.1 隨機森林算法
分類回歸樹[21]是一個強大的工具,能夠映射復雜的輸入空間到離散或者分段連續的輸出空間。一棵樹通過分裂原始問題到更簡單、可解決的預測以實現高度非線性映射。樹上的每一個節點包含一個測試,測試的結果指導數據樣本將分到左子樹或是右子樹。在訓練期間,這些測試被選擇用來將訓練數據分組,這些分組對應著實現很好預測的簡單模型。這些模型是由訓練時到達葉子節點的被標記的數據計算而來,并且存儲于葉子節點。Breiman[22]指出雖然標準的決策樹單獨使用會產生過擬合,但許多隨機被訓練的樹有很強的泛化能力。隨機被訓練樹的隨機性包括兩方面,一是用來訓練每棵樹的訓練樣本是隨機選取的,二是每棵樹上的二元測試是從使每個節點最優的測試集中隨機選取的。這些樹的總和稱為隨機森林。本文將三維人臉模型區域的標記與分割描述為一個分類問題,并利用隨機森林算法來有效地解決它。
2.2 訓練
訓練數據集是由BFM生成的50個三維人臉模型。從每個模型上隨機取n=10 000個頂點樣本,每個頂點對應一個正方形切平面塊。本文實驗中森林由100棵樹建立而成,森林里每個樹由隨機選取的一系列塊(patch){Pi=Vfi,θi}構建而成。Vfi是從每個樣本提取的特征,即正方形切平面描述符,f是特征通道的個數,正方形劃分為K2個小正方形,f=K2。實值θi是這個樣本所屬的類別,例如鼻子區域類別設為數字1,那么鼻子區域內的頂點樣本所對應的θ=1。建立決策樹時,在每個非葉子節點上隨機生成一系列可能的二元測試,該二元測試定義為:
這里的Pi∈{L,R}是到達左子樹或右子樹節點上的樣本集合,wi是到左子樹或右子樹節點的樣本數目和到父節點樣本數目的比例,例如:wi=|Pi||P|。
2.3 測試
通過BFM生成55個三維人臉模型,其中50個人臉模型作為訓練數據,剩下5個人臉模型作為測試數據。測試數據依然取10 000個樣本點,并且知道每個樣本點屬于哪一個區域,通過測試數據計算三維人臉模型網格點分類的準確率。為了測試提出方法的有效性,研究過程中從網上下載獲取了其它三維人臉模型,對人臉模型上的所有網格點通過之前訓練好的隨機森林模型進行分類。因為其它人臉模型與BFM生成人臉模型的尺寸、坐標單位等不一致,所以本研究對這些測試模型進行了后期處理,對正方形的邊長按照模型尺寸的比例M行選取。
3 實驗
3.1 數據集與實驗環境
本文三維人臉標記與分割所用的訓練和測試三維人臉模型由BFM生成,50個模型作為訓練數據,5個模型作為測試數據。每個模型包含53 490個頂點和106 466個三角形網格,每個訓練模型選取10 000個頂點樣本。用C++和OpenGL、OpenCV等庫對三維人臉模型數據進行采樣,得到每個樣本的正方形切平面描述符。在Matlab平臺下用隨機森林算法對數據集進行訓練和測試,并對實驗結果進行可視化。
3.2 實驗結果
利用已訓練好的模型對測試數據集上三維人臉模型的所有頂點進行分類,計算頂點分類的準確率。準確率(Accuracy Rate)計算公式為:
準確率=預測正確的頂點個數(m)人臉模型上所有頂點個數(N)
根據文獻[10]提出的類似描述符參數選取以及參數優化策略,經過多次實驗,研究發現正方形邊長L和正方形劃分的小正方形數目K2兩個參數的選取對頂點分類準確率有著一定影響。實驗中選取參數L∈{60,80,100}、參數K2∈{9,16,25,36}進行對比,具體對比結果如表1、表2所示(其中表1中K2為16,表2中L為80mm)。
根據上面兩個表格,可以明顯得出,L=80mm,K2=25時頂點分類準確率最高。接下來對L=80mm,K2=25情況下的三維人臉模型區域進行標記,可視化結果如圖4所示,上邊是原始三維模型數據,下邊是標記后的結果。(a)、(b)模型標記圖是由BFM生成的三維人臉模型區域標記的結果,模型有53 490個頂點。為了驗證本文方法的一般性和對分辨率具有不變性,(c)~(e)模型標記圖是非BFM生成的其它三維人臉模型的標記結果,模型約有5 000個頂點。以上所有圖都是對三維人臉模型所有頂點進行標記的結果。
文獻[6]~[8]中提到的基于深度圖的特征提取方法(見圖1),同樣利用隨機森林算法進行了實驗,并與本文的正方形特征描述符的實驗結果進行了比較,如表3所示。將深度圖投影到96*96大小,深度圖patch所取邊長c深度圖大小的比例和正方形所取邊長與模型大小的比例相等。
由表3可得,對三維人臉模型頂點級分類和區域標記問題,本文提出的特征描述符的標記結果優于深度圖patch特征選取方法。此外,由于深度圖的一些局限性,直接對三維模型處理要比對深度圖處理更有優勢。
3.3 結果討論與分析
圖4中5個模型頂點數目、三角形面數目和頭部姿勢都不一樣,驗證了本文所提方法對于姿勢、模型尺寸和模型分辨率具有較好的魯棒性。并且其對不同的眉毛、眼睛、臉頰區域也能進行很好的區分,將左右眉毛、左右眼睛和左右臉頰用同一顏色、不同符號進行顯示。本文提出的描述符和直接對三維模型處理的方法,與在深度圖上選取特征方法相比具有一定優勢。由于手動分割人臉區域時,很難避免分割粗糙,區域交界處有的部分頂點沒有包含進去,因此在區域交界處頂點的分類誤差會相對略大,特別是嘴唇之間的部分。另外,三維人臉模型中額頭和下巴的頂點和特征相對較少,所以相較于其它區域,這兩個區域的頂點分類誤差也會略大。
4 結語
本文提出一種基于正方形切平面描述符的三維人臉區域標記方法。將這種幾何特征描述符作為選取樣本的特征,通過隨機森林算法,對三維人臉模型進行區域分類和標記。該方法可有效識別出三維人臉模型的眉毛、眼睛、鼻子、嘴巴和臉頰等區域,這對三維人臉特征點的定位及其它三維人臉方面的研究都具有重要意義。本文提出的方法對三維人臉模型頭部姿態、模型尺寸、模型分辨率具有較好的魯棒性。和基于深度圖的方法相比,本文提出的方法具有更好的泛化能力,是一種行之有效的特征提取方法。
然而,手動分割人臉區域的做法在一定程度上略顯粗糙,特征選取速度亦仍需優化。同時,本文僅對三維模型上所有頂點所屬區域進行標記,沒有將標記后的結果結合三維分割算法進行區域分割優化。如何對相關算法加以改進,將是下一步需要解決的問題。
參考文獻:
[1]SUN Y, WANG X, TANG X. Deep convolutional network cascade for facial point detection[J]. Computer Vision & Pattern Recognition,2013,9(4):3476-3483.
[2]CAO C, WENG Y, LIN S, et al. 3D shape regression for real-time facial animation[J]. Acm Transactions on Graphics, 2013, 32(4):96-96.
[3]CAO C, HOU Q, ZHOU K. Displaced dynamic expression regression for real-time facial tracking and animation[J]. Acm Transactions on Graphics, 2014, 33(4):1-10.
[4]SEEMAN E, NICKEL K, STIEFELHAGEN R. Head pose estimation using stereo vision for human-robot interaction[C].ICAFGR, 2004 Sixth IEEE International Conference on Automatic Face and Gesture Recognition. IEEE, 2004: 626-631.
[5]BREITENSTEIN M D, KUETTEL D, WEISE T, et al. Real-time face pose estimation from single range images[C]. Proc.IEEE put.Vis.Pattern Recognit, 2008:1-8.
[6]FANELLI G, GALL J, GOOL L V. Real time head pose estimation with random regression forests[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2011:617-624.
[7]FANELLI G, WEISE T, GALL J, et al. Real time head pose estimation from consumer depth cameras[C].Pattern Recognition Dagm Symposium, Frankfurt/main, Germany, 2011:101-110.
[8]FANELLI G, DANTONE M, GALL J, et al. Random forests for real time 3D face analysis[J]. International Journal of Computer Vision, 2013, 101(3):437-458.
[9]PAPAZOV C, MARKS T K, JONES M. Real-time 3D head pose and facial landmark estimation from depth images using triangular surface patch features[C].IEEE Conference on Computer Vision and Pattern Recognition. 2015:4722-4730.
[10]SHAPIRA L, SHALOM S, SHAMIR A, et al. Contextual part analogies in 3D objects[J]. International Journal of Computer Vision, 2010, 89(2):309-326.
[11]SIDI O, KAICK O V, KLEIMAN Y, et al. Unsupervised co-segmentation of a set of shapes via descriptor-space spectral clustering[C].SIGGRAPH Asia Conference. 2011.
[12]KALOGERAKIS E, HERTZMANN A, SINGH K. Learning 3D mesh segmentation and labeling[J]. Acm Transactions on Graphics, 2010, 29(4):157-166.
[13]XIE Z, XU K, LIU L, et al. 3D shape segmentation and labeling via extreme learning machine[J]. Computer Graphics Forum, 2014, 33(5):85-95.
[14]GUO K, ZOU D, CHEN X. 3D mesh labeling via deep convolutional neural networks[J]. Acm Transactions on Graphics, 2015, 35(1):1-12.
[15]JOHNSON A E, HEBERT M. Using spin images for efficient object recognition in cluttered 3d scenes[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1999, 21(5):433-449.
[16]FROME A, HUBER D, KOLLURI R, et al. Recognizing objects in range data using regional point descriptors[J]. Lecture Notes in Computer Science, 2004.
[17]TOMBARI F, SALTI S, STEFANO L D. Unique signatures of histograms for local surface description[C].European Conference on Computer Vision Conference on Computer Vision. Springer-Verlag, 2010:356-369.
[18]ZAHARESCU A, BOYER E, VARANASI K, et al. Surface feature detection and description with applications to mesh matching[C]. IEEE Conference on Computer Vision & Pattern Recognition, 2009:373-380.
[19]ZAHARESCU A, BOYER E, HORAUD R. Keypoints and local descriptors of scalar functions on 2D manifolds[J]. International Journal of Computer Vision, 2012, 100(1):78-98.
[20]PAYSAN P, KNOTHE R, AMBERG B, et al. A 3D face model for pose and illumination invariant face recognition[C].IEEE International Conference on Advanced Video & Signal Based Surveillance. IEEE Computer Society, 2009:296-301.
[21]BREIMAN, LEO. Classification and regression trees[M].Classification and regression trees /. Chapman & Hall/CRC, 1984:17-23.
[22]MITCHELL. Machine learning[M]. McGraw-Hill, 2003.
關鍵詞:視頻聯動;港航船閘;控制聯動;越線報警
船閘工程項目由很多系統組成,主要包括有計算機監控系統、視頻監視系統、越線報警系統、網絡廣播系統、供配電系統和船閘收費系統等。目前已建大部分系統都是分開獨立管理,由于系統較多,分散會給運行管理帶來不便、尤其對船閘安全運行帶來極大不利,只有將各個子系統進行融合統一、聯合工作才能提高工作效率、為船閘安全可靠運行提供了保障。
一、船閘視頻與控制智能聯動裝置
隨著監控技術的發展和船閘自身安全管理的需要,船閘每個閘首都安裝了十幾個乃至數十個監控攝像頭,目前船閘通過多個宮格的方式將多個攝像頭的畫面顯示在電腦或者大屏幕同一監視器上,供船閘運行調度人員監控船閘運行情況。然而,在船閘的實際運行過程中,船閘運行調度人員需要根據船閘運行的八個步驟,在某一時間段內重點關注部分宮格的視頻畫面,面對多角度多畫面的監視器,工作人員很難在短時間內找到需要重點關注的畫面且持續關注一段時間,頻繁切換更是容易導致視覺疲勞。船閘集中控制模式下,操作人員既要按照船閘操作工藝流程開關閘門閥門,又要調用不同視頻圖像確認其操作安全性,兩者之間頻繁切換,十分繁瑣,容易產生誤操作,效率較低。目前大部分船閘使用的視頻與控制聯動系統采用的舊版方案,只能在現地機房現地進行查看,需要靠人工干預操作,且使用過程中存在卡頓現象,效果不好。針對上述船閘在船舶過閘靠泊方面主要存在的問題,迫切需要通過船閘視頻與控制聯動改造工程來解決。船閘視頻與控制智能聯動裝置集控,通過采集航道交通控制系統的運行控制指令自動調用運行區域的相關攝像機視頻監控信號,可使在集控中心使運行人員迅速觀察到運行設備及運行現場的視頻,以最快的速度了解現場的運行情況,及時確保通航系統的設備安全可靠,船舶順利過閘。為保證網絡安全性,將控制系統與視頻系統在網絡層面完全隔離,聯動裝置直接讀取PLC的信號,不再與控制系統交換機連接。將視頻系統與控制系統在網絡上硬隔離。同時,為保證今后船閘控制系統/視頻系統調整時,盡量減少視頻與控制系統聯動設備的調整工作量,要求聯動裝置配置文件,設置操作界面,直接設置IP等參數,操作更簡單、易懂,維護更方便。
(一)智能聯動裝置主要功能
在船閘控制中心配置一套視頻與控制智能聯動裝置,用于放閘運行人員對現場運行設備進行監控。通過將視頻系統的數據和控制系統的數據進行實時聯動,滿足在船閘運行全過程中對不同的重點區域的重點查看的需要。其主要用來連接控制系統與視頻系統,通過將控制系統中獲取的關鍵運行數據,經過分析決策后提供給視頻系統使用,從而使視頻系統側的軟件發揮作用,起到了橋梁的作用。1.計算機監控系統對被監視設備進行操作時,視頻監視系統攝像機能自動轉向并顯示畫面,并能對重要部位設置實時監視功能,以判斷設備運轉是否正常、了解現場動態。系統主要能實現兩點功能。一是在船閘運行的特定步驟篩選重要視頻畫面并放大顯示,二是在船閘運行到下一個步驟時,重點畫面能夠自動進行切換。2.視頻監視系統具有與自動報警聯動功能,能依據計算機監控系統中重要設備的事故故障信號等有關報警信息,自動推出事故區域關聯攝像機的全屏報警畫面。
(二)智能聯動裝置實現方式
智能聯動裝置獲取設備運行狀態通過獨立的裝置處理器,能夠通過網絡modbus協議、opc協議等其他協議進行互相通信,共享船閘控制系統內監控系統內的操作數據,而不影響船閘的正常運行。通過分析總線數據包和預設的參數,處理器智能的識別當前操作進展的情況,并透過TCP/IP協議與監控終端通信,進行相應動作。視頻與控制聯動系統終端軟件根據預先與船閘相關人員的溝通,確定船閘的監控重點和順序。可以在收到聯動設備發出的動作信號后,切換視頻,控制監控區域放大顯示等操作,避免了人工干預,提高監控效率。軟件同時接收船閘上的多路監控視頻流,壓縮后以宮格的形式顯示在界面右側,操作人員同樣可以方便的操作該軟件,自主切換、放大任意一路監控視頻,有效提高監控設備的使用效率。
(三)智能聯動裝置系統主要功能
船只在進閘過程中需要關注的要點畫面一般由2-3個視頻畫面組成,需要對閘門附近船閘運行狀態進行監視,且每個畫面均以文字形式告知管理人員注意的內容,并且提示下一步船閘動作,閘室外船只全部進入完畢后,即船只全部進閘后,操作人員進行通過視頻監視確認無誤后,遠程操作閘門,使閘門開始關閉,此時重點畫面立刻切換成了新的需要關注的區域圖像。智能聯動裝置系統主要功能包括:1.視頻與控制智能聯動軟件是基于多任務、多平臺、實時性好、開放性好的集成軟件包。標準畫面和用戶組態畫面均為漢化系統。2.顯示功能:可根據需要自定義視頻監控畫面,包括監控畫面的大小,監控畫面的對象,視頻監控的畫面分割等,如根據現場開關閘門的控制信號或事故故障信號自動切換至預先設定好的切換畫面,畫面既可以為全屏顯示,也可以為四分屏、五分屏等任意分屏設置畫面且軟件正常運行過程中CPU占用率不超過50%。畫面自動推送與切換過程中響應速度不超過1秒。3.通訊功能:視頻與控制智能聯動軟件內嵌了多家PLC產品的多種硬件驅動程序,可以與多家PLC產品進行通訊,讀取PLC的相關信號。同時視頻與控制智能聯動軟件也可與海康等品牌的攝像機進行通訊,調取現場的攝像機視頻信號。4.安全功能:通過用戶認證系統,可防止外來的非法用戶接入,對內網用戶進行統一的用戶賬戶管理、行為管理的等一系列安全措施,保障網絡安全可靠的運行;系統分別設定操作員和系統管理員的權限。在運行環境下,可屏蔽操作系統中所有熱鍵,從而鎖定系統自由進出。系統受電后自動恢復運行狀態。操作員級別的用戶只能對系統進行監視,而系統管理員可退出系統并對軟件內的相關參數進行重新設定。5.自恢復功能:現場視頻信號丟失再恢復后,監視畫面上的視頻信號可自動進行恢復,無需人為干預。
二、船閘越線報警系統
船閘作為重要的水運通航設施,保障其安全運行尤為重要。在閘室靠近閘門的位置附近應有一條安全警戒線。船只越過安全警戒線可能對船閘運行工況產生安全隱患,尤其離閘門越近、發生不安全事件可能性越大。在船閘實際運行過程中,存在以下3方面問題,即目前船閘安全警戒線大多僅僅依靠界限燈和標識線,船舶在運行中無法有效識別;船舶距離閘門過近,在水流波動較大時容易出現碰撞閘門的情況;船舶重載下行,在泄水時會出現擱淺閘臺的情況。其中,為了避免泄水時因船舶在閘臺違規停留導致船舶傾翻事故發生,需要在危險時間內對船舶的違規停留行為進行檢測、防止船舶故意長時間停留。另一方面,由于船閘運行過程中,水位差變動大,且部分船舶外輪廓高度超限.極易造成船舶高度超限部位與船閘設施發生碰擦,既造成了船閘設施的損壞,也容易造成安全事故,因此項目同時考慮對船舶超高情況進行檢測和報警、提前對船舶運行要求進行提醒。
(一)越線檢測難點
1.當前主要越線檢測還是人工巡視。人工巡視存在易疲勞,物理標識不易看清,精確度不高,效率低等缺點。2.而采用電氣控制手段自動檢測難點主要有:復雜天氣影響:閘室環境是室外露天的非標準工況,受四季天氣情況影響,如雨、霧、雪等因素干擾檢測儀表儀器;隨機干擾源多:如飛鳥、水面漂浮物、波浪等反射,其中飛鳥、漂浮物等具有隨機、不重復的特點;水位實時變化:在調度過程中,船舶高度會隨著水位變化而變化,檢測部位要隨水位變動而變動。
(二)船閘越線報警系統原理
為克服檢測難點,設計采用激光和視頻結合的檢測手段檢測船舶越線。激光檢測通過二維激光掃描、接收,依據空間距離,對閘臺上違停的船舶進行檢測報警。視頻檢測通過視頻分析技術,對劃定區域內的船舶進行智能識別,并實時報警。兩種檢測方式特點為:激光檢測精度高,抗干擾能力強,能應對各種復雜天氣;視頻檢測正常情況下精度高,但易受天氣影響。二者結合,可增加系統可靠性,準確判別船舶是否越線,為船閘管理人員提供操作依據和前提條件。將閘室區域分為正常區域、安全警戒線、緩沖區域與危險區域。其中,安全警戒線為緩沖區域前方設定的警戒線,利用激光掃描儀,實時檢測船舶越線行為,為防撞系統提供智能預警功能;緩沖區域為危險區域前方設定的虛擬區域,為違規闖入船舶的管理提供緩沖時間;危險區域為閘門附近設定的虛擬區域,如閘臺位置、閘門位置,在危險時間窗口內,該區域禁止船舶進入。采用“激光越線檢測+視頻輔助驗證分析”的復合檢測方式,完成對潛在船舶危險行為的智能預警。首先,通過激光掃描儀,對越過安全警戒線的船舶進行檢測,為閘室防撞系統提供智能預警,充分保障閘室安全穩定運行。其次,將控制系統與防撞報警裝置進行聯動,對目標船舶進行重點監控。當激光掃描儀檢測到有船舶越過警戒線,監控中心與閘室警戒燈將自動報警,并通過廣播、顯示屏信息等方式,提醒該船只立刻停船。同時,監控中心會向閘口值班員發出警戒信息,值班員利用緩沖區域提供的時間現場指揮該船只停船,并自動調用監控攝像機進行拍攝取證。基于紅外功能的視頻輔助分析與聯動確認,利用基于卷積神經網絡算法,對視頻監控抓拍的船舶圖片進行特征智能識別,為船閘防撞提供輔助預警功能。當閘室出現警情時,防撞預警系統與視頻監控系統實施聯動,監控中心能夠自動將警情區域的監控畫面切換至大屏主畫面,以便進行最后的警情確認。對于異常狀況,視頻可以自動保存、自動播放。
三、總結
視頻聯動在港航船閘得到試點創新應用,船閘視頻監視系統和計算機監控系統兩個系統之間通過數據指令的交互,實現了閘門運行監視和閘門視頻同時在大屏上監視、方便了操作人員監視、提高了系統運行安全性、可靠性。船閘越線報警系統將閘室區域分為正常區域、安全警戒線、緩沖區域與危險區域,閘室防撞系統提供智能預警,充分保障閘室安全穩定運行。將控制系統與防撞報警裝置進行聯動,對目標船舶進行重點監控。船閘越線報警系統為船閘管理人員提供操作依據和前提條件。
參考文獻:
[1]彭湖.視頻監控與消防的聯動方法探究[J].城市建設理論研究(電子版)[山東工業技術,2020.
[2]張榮森.淺談智能化視頻聯動微機五防系統方案[J].科技創新導報,2016.