前言:想要寫出一篇引人入勝的文章?我們特意為您整理了計算機專業(yè)手語語料庫建設范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:
計算機專業(yè)手語語料庫從聾人學生計算機專業(yè)教學的情景視頻庫中選取手語視頻語料,采用多媒體轉寫標注軟件ELAN進行手語語序轉寫、漢語翻譯和文本標注,將其轉換為文本語料,建成“計算機專業(yè)手語語料庫”,從手勢動作、身體姿勢、面部表情三方面特征對計算機專業(yè)手語詞匯展開詞義構成分析和描寫,分析計算機專業(yè)手語詞匯的手勢特點及內(nèi)在成因。
關鍵詞:手語;語料庫;轉寫;標注
0引言
根據(jù)中國殘聯(lián)提供的數(shù)字,我國現(xiàn)有聾人約2200萬,18歲以下應受教育的聾啞人達400多萬,7歲以下為80萬。這是一個龐大的弱勢群體。因其在學習、工作和生活上有許多常人難于想象的艱辛和障礙。[1]計算機專業(yè)手語語料庫從聾人學生計算機專業(yè)教學的情景語料庫中選取手語視頻語料進行手語語序轉寫、漢語翻譯和文本標注,將其轉換為文本語料,建成“計算機專業(yè)手語語料庫”,從手勢動作、身體姿勢、面部表情三方面特征對計算機專業(yè)手語詞匯展開詞義構成分析和描寫,分析計算機專業(yè)手語詞匯的手勢特點及內(nèi)在成因,指導聾人高等工科教育中的手語教學。同時也能為聾人高等工科教育提供教學資源、教學設計、教材編寫、課堂教學與學習評估等方面科學的決策與指導。如同其他語言建立語料庫一樣,計算機專業(yè)手語也可以充分利用計算機和網(wǎng)絡資源,根據(jù)計算機專業(yè)手語的特點,建立手語語料庫[2]。手語語料庫的建立在手語的語言學研究、手語的規(guī)范化研究及手語識別和機器翻譯領域有著重要的應用意義。因此,國外學者對此做了大量的研究。美國的手語研究者于1995年對7個主要城市的聾人使用的手語的音系、詞匯和句法開展了詳細的調(diào)查,積累了大量的手語樣本后建立了世界上第一個手語語料庫即美國手語語料庫(Lucas,2005)。近年來,越來越多的國家和地區(qū)相繼建立起手語語料庫,其中包括英國手語語料庫項目、北美手語語料庫工作坊、澳大利亞手語語料庫、荷蘭手語基本詞匯語料庫、德國手語語料庫,中國香港的亞太地區(qū)手語語料庫等都對我國建立手語語料庫有借鑒意義。李恒(2013)認為目前最為成熟的手語語料庫是由Johnston等人創(chuàng)建的澳大利亞手語語料庫。Johnston(2009)提出,手語語料庫應當包括大量可以機讀的標注文本,而非語篇和文本的隨意堆砌。McEnery和Wilson(1996)也認為樣本的代表性以及語料的機讀形式化是語料庫兩個最重要的特征。以此標準建立的語料庫,對于包括音系、詞匯、句法、語篇等各種層次的手語研究,尤其是詞典編纂都有積極的促進作用。王敏等則認為英國手語語料庫項目和北美手語語料庫工作坊兩個手語語料項目在設計理念、技術手段、人員協(xié)作等方面值得研究與借鑒。目前國外較為通行的做法是,科研人員可根據(jù)研究需要建立私人語料庫,在一定范圍內(nèi)實現(xiàn)共享和交流[4]。
1設計實現(xiàn)的功能
系統(tǒng)采用ELAN建立計算機專業(yè)手語語料庫,從一個小型專業(yè)手語語料庫的建設入手,先建立各個子庫,比如計算機網(wǎng)絡手語、圖形圖像手語、動畫設計手語等等,再集成完成數(shù)據(jù)庫,探索專業(yè)手語語料庫建立的方法和途徑[3]。通過轉寫和標注,分析手語的特點,以便于計算機對特定語料進行識別和提取。實現(xiàn)語料庫的機讀化,提高語料的利用價值,增加語料的重復使用性以及增強語料庫的多功能性。以此標準建立的語料庫,對于包括音系、詞匯、句法、語篇等各種層次的手語研究,尤其是詞典編纂都有積極的促進作用。
1.1語料樣本形式的選取
語料的選擇和編制是建立語料庫的環(huán)節(jié)之一,調(diào)查通常包括如下部分。
(1)詞匯。以計算機專業(yè)手語視頻數(shù)據(jù)庫中的視頻文件作為本課題的語料樣本。該視頻庫中的計算機專業(yè)手語詞匯由來自全國各地的聾生做手語來描述。選取使用頻率高的課堂教學詞匯。配合采用田野調(diào)查的“詞匯記錄”法,確保真實地記錄手語中的特有詞匯。(2)語法。以“誘導法”和“自然產(chǎn)出法”兩種方法為主體,具體采用訪談、自由交流以及讓聾人進行自我介紹等方式獲得語料信息。
(3)地域。由于我國地域遼闊,如同有聲語言存在方言差別一樣,手語也有不同的地域語言變體。因此語料庫樣本的地域的選取應盡可能廣泛。如果不能覆蓋全國各個省市,也應具備東北、華北、華東、華南等地區(qū)的代表性。語料樣本的選取應當注意到不同地區(qū)聾人文化和聽人文化的差異、聾人文化內(nèi)部之間的差異對手語方言形成的作用。這樣采集的樣本才能為計算機專業(yè)手語的規(guī)范化研究提供理論依據(jù)。
1.2操作方法
在建立計算機專業(yè)手語語料庫時,根據(jù)計算機專業(yè)教學的實際需要決定標注來完成元數(shù)據(jù)的標準化和手語視頻詞匯的規(guī)范化,同時要兼顧實用性,避免因數(shù)據(jù)量過小而降低語料庫的利用價值。目前較為常見的手語元數(shù)據(jù)描述格式是由荷蘭馬克思•普朗克心理語言學研究所開發(fā)應用的im-di元數(shù)據(jù)庫。這主要用在多媒體和多模態(tài)語言集成。更好地實驗語言數(shù)據(jù)和元數(shù)據(jù)之間的匹配,提供檢索和計算之用。另一個ELAN軟件,這主要有三種模式:分割模式、轉寫模式、標注模式。在過程中,為避免對手語不熟悉,保證數(shù)據(jù)分割的準確性,最好由手語語言學專業(yè)出身的人來完成。因此在建設手語語料庫過程中,應當注意到以下幾個問題:
(1)作為語料庫研究者來看,應該在標注系統(tǒng)的詳略度和標注方案的可行性之間找到平衡點。
(2)從用戶的使用角度來研究,語料庫的標注應該越詳細越好,可以讓用戶容易理解;假如標注信息過于繁多,將不利于標注者進行實際操作。
(3)從建設整體來看,我國的手語視頻庫以及語料庫大多數(shù)經(jīng)由國家出資而建立,在此提倡應當由大學各個機構和高等學校自主建立專屬的手語語料庫。
2Elan自建語料庫的方法
2.1基本概念
Elan的四個基本概念是:轉寫;標注;層;語言學類型。在此,對其闡釋如下:
(1)轉寫。根據(jù)音頻和視頻內(nèi)容錄入文字或其它字符(國際音標、拼音等)的操作。
(2)標注。針對音頻或視頻內(nèi)容所轉寫的文字、國際音標或者對內(nèi)容進行的標記、注釋等等,都可以稱為“標注”。在ELAN中,“標注”包括“轉寫”。另外,“標注”也可以指某一層上沒有轉寫任何內(nèi)容的空段,即“空標注”。
(3)層。轉寫和標注以“層”為依托,不同的層里有不同的標注內(nèi)容。如文本轉寫層、國際音標層、注釋層等等。
(4)語言學類型。從語言學角度對“層”屬性的一種定義,如某一層標注的內(nèi)容是國際音標,就可以把該層的語言學類型定義為“IPA”,某一層是方言轉寫,就可以把這一層的語言學類型定義為“Dialect”,等等。
2.2操作模式
運行ELAN,導入音頻或視頻文件后,ELAN在“選項”菜單中設計有五種操作模式可供選擇:分割、轉寫、標注、同步、線性交錯。前三種模式在轉寫與標注的過程中使用頻繁,常常需要在各種模式之間切換;后兩種模式則使用較少。下面即對前三種模式展開具體論述。
(1)分割模式。這是轉寫模式的基礎,主要用于在轉寫前對錄音或視頻進行時間段(按實際語流的停頓“分割段”可能是半句話、一句話或更多)的分割標記,使用時只需要在相應的時間點按“回車鍵”就可以逐段分割,進行標記。
(2)轉寫模式。該模式以分割模式為基礎,在分割模式中完成對轉寫的內(nèi)容逐段分割標記后切換到轉寫模式,在表格中逐句轉寫,轉寫完成一句以后,即按回車鍵進入到下一句。如需重復播放當前句,按Tab鍵即可,操作簡單高效,省去了頻繁回放的麻煩。
(3)標注模式。是對一個手語專業(yè)的人打手語拍攝的轉寫和標注,標注人是鐘鵬,參與者是手語語言學專業(yè)的人,詞匯是“安全”。
2.3制作流程
(1)新建導入視頻之后,在菜單上的選項單擊,找到分割模式。
(2)按回車鍵設置第一個標記,設置到第二個標記連成一個標注段,即一個字一個標注段。
(3)設置標注段后,選項→轉寫模式。(4)設置幾個表欄數(shù)目,第一個列數(shù)量選擇default-it,最后點選“應用”。
(5)完成之后,在序號1輸入“安”,序號2輸入“全”。選項>標注模式。
(6)鼠標光標移動default,按鼠標右鍵,選擇更改此層屬性。
(7)更改層名、參與者、標注人、輸入法,單擊確定。
(8)在菜單欄選擇“層>復制層”然后在彈出的復制層窗口中選好正文,然后下一個。
(9)單擊下一個,進入選轉寫(無父層)。
(10)單擊下一個按鈕,最后一步,結束。復制層之后更改此層屬。
(11)在標注段雙擊就進行編輯狀態(tài),分別輸入一手橫伸,掌心向下,自胸部向下(時間段為0~2秒);伸出拇指順時針平行轉一圈(時間段為2~3.5秒),
2.4ELAN自建手語語料庫的結論
計算機專業(yè)手語語料庫對于聾人高等教育領域的教師、全國聾生發(fā)揮著集成地方手語、以及將涉獵手語互相對比、查詢、學習的作用,使聾人能夠精確地了解、并熟練使用一些專業(yè)性手語。研究中為了使聾人能夠更趨便利地達成溝通,使用ELAN軟件處理拍攝視頻,利用該專業(yè)手語詞匯,肢體上的動作講解來實現(xiàn)手語語料庫的基本構建。ELAN軟件對于收集手語具有更好的效果優(yōu)勢。
3結束語
計算機專業(yè)手語語料庫建設的研究是研究所在聾人工學院的重大項目,對于計算機專業(yè)手語詞匯,句子的手勢進行采集、分割、轉寫、標注種種來完成計算機專業(yè)手語詞匯語料庫、計算機專業(yè)手語句子語料庫的建設。尤需一提的是,計算機專業(yè)手語詞匯的采集匯聚,在這一過程中需要通過各地方聾人打手勢的長期積累、精細篩選,更需要制作臻于完善的文案來完成拍攝任務,另外還需要操作軟件耗費時間以完成標注、轉寫等等,至此方可完成計算機專業(yè)手語語料庫的最終圓滿建設。
參考文獻:
[1]李凱.韓梅.聾人手語動漫教學系統(tǒng)的設計[J].智能計算機與應用,2012,2(6):41-45.
[2]李凱,張書珍.計算機專業(yè)詞匯手語手勢的表達設想[J].中國聽力語言康復科學雜志,2004(3):36-37.
[3]李斌.用Elan建設單點方言多媒體語料庫[J].方言,2012(2):178-190.
[4]李恒.手語語言學方法論研究綜述[J].中國特殊教育,2012(6):22-26.
作者:孫筱玥 付南鈞 楊煉 李凱 韓梅 單位:天津理工大學聾人工學院