前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的生物信息學的概念主題范文,僅供參考,歡迎閱讀并收藏。
一、正視學生的學習錯誤,是新課改以人為本理念的體現
我們知道,課堂是學生學習中犯錯誤的地方,課堂教學也應該大膽暴露學生的學習錯誤。每一個學生都是有思想、有情感、有需求、有尊嚴的生命個體,他們都有個性,而且存在個性差異。學生的學習是一個自主的認知建構過程,是從不懂到懂,從不會到會,從無到有的完善過程。由于學生的客觀差異性,學生的學習有快有慢,有好有差,有對有錯。可以說,學生在學習上犯錯誤是正常的。在新一輪課程改革的進程中,老師不斷要有課程意識、學生意識、資源意識等,其中資源意識涵蓋很多內容,學生是資源,學生的學習狀況也是資源。老師面對學生時不僅要有成功學生的范例,有學生正確學習的資源,也要正視學生的學習錯誤這一資源,剖析并用好學習錯誤這一資源。應當說,正視學生的學習錯誤,是對學生人格的尊重;正視學生的學習錯誤,是堅持新課改核心理念“一切為了學生的發展”的具體體現。同時,正視學生的學習錯誤,也有利于教師反思教學。面對學生的學習錯誤,首先老師要捫心自問自己的教學哪里出了紕漏,反思自己的教學行為是不是有教材沒吃透,教法不符合學法,因材施教方面有哪些不足,教學機智欠佳,預設教學與生成教學在哪里沒融合好等。然后,老師及時調整自己的教學行為來更好地服務學生的學習行為。
二、正視學生的學習錯誤,有利于學生改善學習和成長
學生面對學習錯誤,老師指導學生認識到錯誤的說法、做法可以用來啟發其他同學和自己想到正確的說法、做法,找到正確的方法、路徑來解決問題,從中讓學生明白在學習上犯錯誤是自然的、正常的事,錯誤中暗示著正確。學生面對學習錯誤,老師或同學應該幫助他分析錯誤的原因,并讓學生自己學會回顧產生錯誤的歷程,找到錯誤的原因,分析是認知基礎差,還是學習能力弱,是思維定勢所致,還是學習品質、學習習慣諸因素所致,找到癥結才好下藥改正。學生面對學習錯誤,老師要讓其明確改正學習上的錯誤是每位學生應盡的學習責任,做到隨時有了學習上的錯誤就能及時改正,明白每改正一次錯誤就是一個進步。這樣學生在學習過程中才能減少學習錯誤,提高解題正確率,使學生從錯誤中想到正確所在,從失敗走向成功。
學習是一個不斷解決問題的過程,也是不斷改正學習錯誤的過程。老師不歧視犯了學習錯誤的學生,反而正視學生的學習錯誤,把學習錯誤當作一種資源,經常匯集學生的學習錯誤例子,有利于因材施教,優化教學。同時,老師應該充分利用這些學習錯誤,對學生因勢利導,讓學生正視學習錯誤,多鼓勵學生,使學生站在另一角度看待學習錯誤,從錯誤中有意義地學習,正如一些高考狀元介紹學習心得時,特地指出他們自己重視分析錯題,甚至把錯題匯編成冊,經常反思,不斷突破,高效學習。正視學生的學習錯誤,可以幫助學生樹立學習的信心,培養學習責任,不斷減少錯誤,學會正確學習,從而使學生得到自主、和諧、全面、持續發展。
三、正視學生的學習錯誤,教師要擁有一顆寬容的心
我們知道,每個學生都有自己的生活背景、家庭環境、特定的生活與社會文化氛圍,這就導致了不同的學生有著不同的經歷,不同的思維方式、不同的興趣愛好、不同的發展潛能。就我所任教的數學學科而言,教學實踐證明不同學生之間的差異是永遠存在的,在數學方面往往更為明顯。因此,在學習同一數學內容時,學生既有在復雜處出錯的可能,也有在簡單處出錯的可能,既有一次出錯的可能,也有多次出錯的可能。一個學生在此可能出錯,另一個學生可能在此不出錯;多數人在此可能出錯,少數人可能在此不出錯。要允許不同的學生用不同的速度,不同的方式學習數學,允許不同的學生在數學方面得到不同的發展,新課程要求最大限度地滿足每一個學生的潛能,其中很重要的一點就是要特別關注數學學習上能力不足或暫時有困難的學生。所以,要實現這一點教師就要寬容學生的錯誤。
關鍵詞:生物信息學;實踐教學;教學模式
中圖分類號 G642.0 文獻標識碼 A 文章編號 1007-7731(2017)06-0179-03
Innovative Teaching Pattern of Bioinformatics
Zhu Liucun et al.
(School of Life Sciences,Shanghai University,Shanghai 200444,China)
Abstract:As a newly-developing interdiscipline,bioinformatics has received incessant attention on the research of teaching models.Traditional teaching methods focus on the pattern of direct instruction and demonstration from the lecturer which students were used to learning in China.However,this straight teaching pattern usually lacks of capacity of arousing students' interest in learning,let alone achieves the aim of making them complete their work with the knowledge they learned in class.Recently,case-based learning,problem-based learning and program-based learning are known as successfully innovative teaching models.In this paper,by combining these three models and considering the background of students and characteristic of bioinformatics,we propose a new teaching pattern to be geared to the needs of the undergraduates learning bioinformatics.We look forward to the innovation and development this teaching pattern may achieve so as to enhance the students' capacity of independent study and thinking.
Key words:Bioinformatics;Practice teaching;Teaching pattern
1 前言
生物信息學是生命科學的重要前沿交叉學科之一,綜合計算機科學、數學、生物學等學科的技術和方法,以計算機為主要的工具,對生物原始數據進行研究、存檔、分析和處理,以闡明其具有的生物學意義[1,2]。隨著人類基因組計劃的成功完成,測序技術的不斷發展,越來越多的生物基因序列數據被載入到數據庫中。而大數據時代的到來要求我們能大規模的分析處理這些數據,因此生物信息學進入高速發展的黃金期。
目前生物信息學在許多高校本科生物專業中開設,目的是讓學生掌握生物信息學的相關技術及分析數據能力,并具有查找、跟蹤生物信息學前沿性技術的能力。然而,在與學生的交流過程中,筆者發現幾個普遍存在的問題:有的學生反映,聽完課很快就忘了;有的學生感覺很多概念太難懂;而更為關鍵的是,很多學生學完這門課之后,仍然不知道遇到具體的問題應當如何去做,甚至根本想不到用生物信息學課上學到的方法去解決他們的實際問題。究其原因,主要是由于國內的生物信息學教學基本以教師講授為主,缺少與學科本身交叉前沿性特點相結合的教學方法[3],導致學生學習積極性不高,變成簡單的重復老師的實驗操作,失去獨立思考的能力,這就違背了開設這門課的初衷。為此,本文就目前流行的3種創新教學模式的特點進行分析,結合生物信息學特點,歸納出一套適合本科生物信息學教學的方法。
2 幾種創新教學模式介紹
2.1 案例式教學法 案例式教學法(Case-Based Learning)是指教師根據教學內容設計案例,利用案例材料指導學生參與教學活動,充分發揮學生主導地位的方法[3,4]。不同于傳統教學灌輸的方式,案例式教學更加注重學生能力的培養,不直接提供解決問題的標準答案,而是通過結合具體案例討論得到解決問題的方法。
2.2 問題式教學法 問題式教學法(Problem-Based Learning)是以問題為導向的開放式教學模式[5],主張讓學生自主學習去解決問題,培養學生的學習主動性,加深學生對理論知識的理解和應用。其特點是將教材的知識點以問題的形式呈現在學生的面前,讓學生在探索解決問題的過程中展開探索,教師和學生一起協作尋找解決問題的方法,從而掌握課本中的知識。在研究活動中,學生可以充分利用身邊的資源,比如圖書館的文獻檢索系統、網絡學習軟件以及多媒w等多種形式進行自主學習。問題式教學模式營造了一種輕松快樂的學習氛圍,提高了學生相互合作的團隊意識,為以后步入社會工作打下堅實的基礎。比如,在BLAST軟件使用教學中,可以先給學生提出如何對兩條DNA序列進行比對的問題,讓他們通過自學與相互討論的方式掌握BLAST的使用方法并將2條DNA序列利用BLAST進行比對并對比對結果加以闡述。
2.3 項目式教學法 項目式教學法(Program-Based Learning)是以項目為主線,在老師的指導下,將一個相對獨立的項目交由學生處理,包括對信息的收集、方案的設計、項目的實施及最終評價[6]。學生通過對該項目的進行,了解并把握整個程及每一個環節中的基本要求,以此來培養學生獨立分析解決問題的能力,讓學生提高自己的動手能力、組織協作能力和綜合概括的能力,拓展學生思考問題的深度和廣度。這種教學法應用非常廣泛,尤其是在職業教育中。
3 應用于生物信息W課程的創新教學模式
那么采取哪種教學方式才能夠讓學生順利掌握知識點,并且能應用到實際當中去呢?一般的生物學課程,只要在理論課后加入實踐課的內容,就可以解決這個問題,例如細胞生物學,只要再加入細胞生物學實驗,那么學生對這門課的理解就會加深很多,對這門課的應用也會有一定的了解。然而筆者在實際的教學過程中卻發現,這樣的方式并不適合生物信息學這門課程,這是由于多數學生在上機實踐之后,仍然不是太理解課上講的一些概念,也不知道如何將這些方法運用到實際中。造成這種情況的原因主要有兩點,一個是生物信息學這門課程所要求的數學和計算機方面基礎,絕大多數學生物的學生都比較薄弱,甚至有部分同學在計算機編程方面是零基礎。這使得他們在理論課上,對一些概念只是強行記住,并沒有真正理解。而在上機實踐環節中,他們又只是走馬觀花地將整個流程給過了一遍,并不知道這些操作是用來做什么的。另一個原因則是生物信息學與其他生物學的課程之間有脫節,這使得生物信息學的知識點很難融入到學生的現有知識體系當中去,這樣就導致了學生不知道這些知識點的用途。因此,必須在激發學生學習興趣的基礎上,深入剖析生物信息學的基本概念,并且結合生物學中的實際問題,引導學生對其進行解決,才能讓學生真正掌握這門課。而傳統的老師講、學生聽的授課方式顯然是不能滿足這一要求的。
案例式教學法起源于美國哈佛商學院,最早應用于商業管理課程。其重點在于對一些熱門且有爭議的問題進行反復討論,加深學生對知識點的理解。而生物信息學課程的內容大多比較確定,比較前沿有爭議的話題又離日常生活較遠,極少出現熱門話題。因此,筆者認為案例式教學法目前可以偶爾用作課堂教學穿插,不適合全面應用于本科生物信息學課程。
問題式教學模式與項目式教學模式在本質上是相同的,均是以學生為主體,讓學生帶著問題或者有明確的目標的去主動利用身邊資源查找相關知識解決問題完成目標,使學生在探索過程不僅掌握了知識,同時萌生自主學習的動機和欲望,提高了自主學習能力。兩種教學模式的區別在于問題式教學法是將書本中的知識點凝練為問題再分析問題并解決問題,而項目式教學法則是根據老師提出的項目要求,以收集信息、設計方案、實施項目、最終評價為線索進行教學。問題式教學提出的問題與書本知識更為接近且較為零散,學生在針對問題進行分析和解決的過程中,容易對教學內容缺乏整體認識,即難以將知識點連成線,也很難結合實際問題。而項目式教學法是目前最適合提高學生能力的教學方法。然而在實際教學過程中,筆者發現大多數學生對項目式教學并不適應,很多學生在理解項目時就遇到了困難,在項目設計時感到無從下手。
因此,筆者在對兩種教學方法進行研究歸納之后,將問題式教學法與項目式教學法相結合,總結出一套適合本科生物信息學教學的方法。具體為:首先教師根據課程安排制定一個可擴展的課題,明確課題要求,并根據課題內容將知識點拆分,以問題形式展現給學生,教師先就這些問題講一些例子,學生查找資料。在此基礎上,學生既對課題內容有整體認識,又在分析、解決一系列小問題時學習到知識點、收集了項目信息。隨后通過參與定期分組討論,與老師進行溝通的方式,學生最終可以擬定項目的方案并付諸實施。這種教學模式讓學生了解實際工作的流程,培養基本的工作能力。在與教師的交流討論中收獲更多的專業知識,與同學之間的合作交流中查漏補缺,完善自己的不足,達到相互提高的作用。例如,在教學中,教師可以設計一個題為“構建一個可以預測乳腺癌患者生存時間的基因模型”的項目,并將項目拆解為:如何查找潛在包含乳腺癌患者信息的數據庫?如何篩選與生存時間相關的基因?如何構建模型?如何評價模型的好壞四個問題?同時,為了讓學生在實踐中更好下手,可以依次為各個問題舉例加以說明。如查找數據庫環節,可以列舉NCBI中的GEO數據庫與美國政府發起的癌癥和腫瘤基因圖譜計劃涉及的TCGA數據庫兩個例子,讓學生先從這兩個數據庫獲取相關的數據,對數據本身有所認識,再利用校園網資源查找更多的數據庫。在此過程中,學生全程參與項目實現的各個流程,不僅學會了自主查找資料與學習,還提高了同學間的優勢互補與團隊協作的能力,提高學生學習的積極性,獲得獨立思考的能力。
參考文獻
[1]龔樂君,楊榮根.淺談計算機交叉學科――生物信息學教學中的探討[J].新教育時代電子雜志(教師版),2014(19):123-124.
[2]徐培杰.生物信息學研究現狀[J].科技信息,2013(10):268-269.
[3]劉念.案例教學法在《生物信息學》本科教學中的應用[J].考試周刊,2016(78):152,191.
[4]張俊河,董衛華,王芳,等.案例教學法在醫學生物化學教學中的應用[J].山西醫科大學學報(基礎醫學教育版),2010(02):139-142.
一、整合生物信息學的研究領域
盡管目前一般意義上的生物信息學還局限在分子生物學層次,但廣義上的生物信息學是可以研究生物學的任何方面的。生命現象是在信息控制下不同層次上的物質、能量與信息的交換,不同層次是指核酸、蛋白質、細胞、器官、個體、群體和生態系統等。這些層次的系統生物學研究將成為后基因組時代的生物信息學研究和應用的對象。隨著在完整基因組、功能基因組、生物大分子相互作用及基因調控網絡等方面大量數據的積累和基本研究規律的深入,生命科學正處在用統一的理論框架和先進的實驗方法來探討數據間的復雜關系,向定量生命科學發展的重要階段。采用物理、數學、化學、力學、生物等學科的方法從多層次、多水平、多途徑開展交叉綜合研究,在分子水平上揭示生物信息及其傳遞的機理與過程,描述和解釋生命活動規律,已成生命科學中的前沿科學問題(摘自:國家“十一五”生命科學發展規劃),為整合生物信息學的發展提供了數據資源和技術支撐。
當前,由各種Omics組學技術,如基因組學(DNA測序),轉錄組學(基因表達系列分析、基因芯片),蛋白質組學(質譜、二維凝膠電泳、蛋白質芯片、X光衍射、核磁共振),代謝組學(核磁共振、X光衍射、毛細管電泳)等技術,積累了大量的實驗數據。約有800多個公共數據庫系統和許多分析工具可利用通過互聯網來解決各種各樣的生物任務。生物數據的計算分析基本上依賴于計算機科學的方法和概念,最終由生物學家來系統解決具體的生物問題。我們面臨的挑戰是如何從這些組學數據中,利用已有的生物信息學的技術手段,在新的系統層次、多水平、多途徑來了解生命過程。整合生物信息學便承擔了這一任務。
圖1簡單描述了生物信息學、系統生物學與信息學、生物學以及基因組計劃各個研究領域的相關性。可以看出基因組計劃將生物學與信息學前所未有地結合到了一起,而生物信息學的興起是與人類基因組的測序計劃分不開的,生物信息學自始至終提供了所需的技術與方法,系統生物學強調了生物信息學的生物反應模型和機理研究,也是多學科高度交叉,促使理論生物學、生物信息學、計算生物學與生物學走得更近,也使我們研究基因型到表型的過程機理更加接近。虛線范圍代表整合生物信息學的研究領域,它包括了基因組計劃的序列、結構、功能、應用的整合,也涵蓋了生物信息學、系統生物學技術與方法的有機整合。
整合生物信息學的最大特點就是整合,不僅整合了生物信息學的研究方法和技術,也是在更大的層次上整合生命科學、計算機科學、數學、物理學、化學、醫學,以及工程學等各學科。其生物數據整合從微觀到宏觀,應用領域整合涉及工、農、林、漁、牧、醫、藥。本文將就整合生物信息學的生物數據整合、學科技術整合及其他方面進行初步的介紹和探討。
二、生物數據挖掘與整合
生物系統的不同性質的組分數據,從基因到細胞、到組織、到個體的各個層次。大量組分數據的收集來自實驗室(濕數據)和公共數據資源(干數據)。但這些數據存在很多不利于處理分析的因素,如數據的類型差異,數據庫中存在大量數據冗余以及數據錯誤;存儲信息的數據結構也存在很大的差異,包括文本文件、關系數據庫、面向對象數據庫等;缺乏統一的數據描述標準,信息查詢方面大相徑庭;許多數據信息是描述性的信息,而不是結構化的信息標示。如何快速地在這些大量的包括錯誤數據的數據量中獲取正確數據模式和關系是數據挖掘與整合的主要任務。
數據挖掘是知識發現的一個過程,其他各個環節,如數據庫的選擇和取樣,數據的預處理和去冗余,錯誤和沖突,數據形式的轉換,挖掘數據的評估和評估的可視化等。數據挖掘的過程主要是從數據中提取模式,即模式識別。如DNA序列的特征核苷堿基,蛋白質的功能域及相應蛋白質的三維結構的自動化分類等。從信息處理的角度來說,模式識別可以被看作是根據一分類標準對外來數據進行篩選的數據簡化過程。其主要步驟是:特征選擇,度量,處理,特征提取,分類和標識。現有的數據挖掘技術常用的有:聚類、概念描述、連接分析、關聯分析、偏差檢測和預測模型等。生物信息學中用得比較多的數據挖掘的技術方法有:機器學習,文本挖掘,網絡挖掘等。
機器學習通常用于數據挖掘中有關模式匹配和模式發現。機器學習包含了一系列用于統計、生物模擬、適應控制理論、心理學和人工智能的方法。應用于生物信息學中的機器學習技術有歸納邏輯程序,遺傳算法,神經網絡,統計方法,貝葉斯方法,決策樹和隱馬爾可夫模型等。值得一提的是,大多數數據挖掘產品使用的算法都是在計算機科學或統計數學雜志上發表過的成熟算法,所不同的是算法的實現和對性能的優化。當然也有一些人采用的是自己研發的未公開的算法,效果可能也不錯。
大量的生物學數據是以結構化的形式存在于數據庫中的,例如基因序列、基因微陣列實驗數據和分子三維結構數據等,而大量的生物學數據更是以非結構化的形式被記載在各種文本中,其中大量文獻以電子出版物形式存在,如PubMed Central中收集了大量的生物醫學文獻摘要。
文本挖掘就是利用數據挖掘技術在大量的文本集合中發現隱含的知識的過程。其任務包括在大量文本中進行信息抽取、語詞識別、發現知識間的關聯等,以及利用文本挖掘技術提高數據分析的效率。近年來,文本挖掘技術在生物學領域中的應用多是通過挖掘文本發現生物學規律,例如基因、蛋白及其相互作用,進而對大型生物學數據庫進行自動注釋。但是要自動地從大量非結構性的文本中提取知識,并非易事。目前較為有效的方法是利用自然語言處理技術NLP,該技術包括一系列計算方法,從簡單的關鍵詞提取到語義學分析。最簡單的NLP系統工作通過確定的關鍵詞來解析和識別文檔。標注后的文檔內容將被拷貝到本地數據庫以備分析。復雜些的NLP系統則利用統計方法來識別不僅僅相關的關鍵詞,以及它們在文本中的分布情況,從而可以進行上下文的推斷。其結果是獲得相關文檔簇,可以推斷特定文本內容的特定主題。最先進的NLP系統是可以進行語義分析的,主要是通過分析句子中的字、詞和句段及其相關性來斷定其含義。
生物信息學離不開Internet網絡,大量的生物學數據都儲存到了網絡的各個角落。網絡挖掘指使用數據挖掘技術在網絡數據中發現潛在的、有用的模式或信息。網絡挖掘研究覆蓋了多個研究領域,包括數據庫技術、信息獲取技術、統計學、人工智能中的機器學習和神經網絡等。根據對網絡數據的感興趣程度不同,網絡挖掘一般還可以分為三類:網絡內容挖掘、網絡結構挖掘、網絡用法挖掘。網絡內容挖掘指從網絡內容/數據/文檔中發現有用信息,網絡內容挖掘的對象包括文本、圖像、音頻、視頻、多媒體和其他各種類型的數據。網絡結構挖掘的對象是網絡本身的超連接,即對網絡文檔的結構進行挖掘,發現他們之間連接情況的有用信息(文檔之間的包含、引用或者從屬關系)。在網絡結構挖掘領域最著名的算法是HITS算法和PageRank算法(如Google搜索引擎)。網絡用法挖掘通過挖掘相關的網絡日志記錄,來發現用戶訪問網絡頁面的模式,通過分析日志記錄中的規律。通常來講,經典的數據挖掘算法都可以直接用到網絡用法挖掘上來,但為了提高挖掘質量,研究人員在擴展算法上進行了努力,包括復合關聯規則算法、改進的序列發現算法等。
網絡數據挖掘比單個數據倉庫的挖掘要復雜得多,是一項復雜的技術,一個難以解決的問題。而XML的出現為解決網絡數據挖掘的難題帶來了機會。由于XML能夠使不同來源的結構化的數據很容易地結合在一起,因而使搜索多個異質數據庫成為可能,從而為解決網絡數據挖掘難題帶來了希望。隨著XML作為在網絡上交換數據的一種標準方式,目前主要的生物信息學數據庫都已經提供了支持XML的技術,面向網絡的數據挖掘將會變得非常輕松。如使用XQuery 標準查詢工具,完全可以將 Internet看作是一個大型的分布式XML數據庫進行數據瀏覽獲取、結構化操作等。
此外,數據挖掘還要考慮到的問題有:實時數據挖掘、人為因素的參與、硬件設施的支持、數據庫的誤差問題等。
一般的數據(庫)整合的方法有:聯合數據庫系統(如ISYS和DiscoveryLink), 多數據庫系統(如TAMBIS)和數據倉庫(如SRS和Entrez)。這些方法因為在整合的程度,實體化,查詢語言,應用程序接口標準及其支持的數據輸出格式等方面存在各自的特性而各有優缺點。同時,指數增長的生物數據和日益進步的信息技術給數據庫的整合也帶來了新的思路和解決方案。如傳統的數據庫主要是提供長期的實驗數據存儲和簡便的數據訪問,重在數據管理,而系統生物學的數據庫則同時對這些實驗數據進行分析,提供預測信息模型。數據庫的整合也將更趨向數據資源廣、異質程度高、多種數據格式、多途徑驗證(如本體學Ontology的功能對照)、多種挖掘技術、高度智能化等。
三、生命科學與生物信息學技術的整合
生物信息學的研究當前還主要集中在分子水平,如基因組學/蛋白質組學的分析,在亞細胞、細胞、生物組織、器官、生物體及生態上的研究才剛剛開始。從事這些新領域的研究,理解從基因型到表型的生命機理,整合生物信息學將起到關鍵性的作用。整合生物信息學將從系統的層次多角度地利用已有的生物、信息技術來研究生命現象。另外,由其發展出的新方法、新技術,其應用潛力也是巨大的。圖2顯示了生命科學與生物信息學技術的整合關系。
目前生命科學技術如基因測序、QTL定位、基因芯片、蛋白質芯片、凝膠電泳、蛋白雙雜交、核磁共振、質譜等實驗技術,可以從多方面,多角度來分析研究某一生命現象,從而針對單一的實驗可能就產生大量的不同層次的生物數據。對于每個技術的數據分析,都有了大量的生物信息學技術,如序列分析、motif尋找、基因預測、基因注解、RNA分析、基因芯片的數據分析、基因表達分析、基因調控網絡分析、蛋白質表達分析、蛋白質結構預測和分子模擬、比較基因組學研究、分子進化和系統發育分析、生物學系統建模、群體遺傳學分析等。整合生物信息學就是以整合的理論方法,通過整合生物數據,整合信息技術來推動生命科學干實驗室與濕實驗室的組合研究。其實踐應用涉及到生物數據庫的整合、功能基因的發現、單核苷酸多態性/單體型的了解、代謝疾病的機理研究、藥物設計與對接、軟件工具以及其他應用。
在整合過程中,還應該注意以下幾方面內容:整合數據和文本數據挖掘方法,數據倉庫的設計管理,生物數據庫的錯誤與矛盾,生物本體學及其質量控制,整合模型和模擬框架,生物技術的計算設施,生物信息學技術流程優化管理,以及工程應用所涉及的范圍。
四、學科、人才的整合
整合生物信息學也是學科、教育、人才的整合。對于綜合性高等院校,計算機科學/信息學、生物學等學科為生物信息學的發展提供了學科基礎和保障。如何充分利用高校雄厚的學科資源,合理搭建生物信息學專業結構,培養一流的生物信息學人才,是我們的任務和目標。
計算機科學/信息學是利用傳統的計算機科學,數學,物理學等計算、數學方法,如數據庫、數據發掘、人工智能、算法、圖形計算、軟件工程、平行計算、網絡技術進行數據分析處理,模擬預測等。生物信息學的快速發展給計算機科學也帶來了巨大的挑戰和機遇,如高通量的數據處理、儲存、檢索、查詢,高效率的算法研究,人工智能的全新應用,復雜系統的有效模擬和預測。整合生物信息學的課程設計可以提供以下課程:Windows/Unix/Linux操作系統、C++/Perl/Java程序設計、數據庫技術、網絡技術、網絡編程、SQL、XML相關技術、數據挖掘,機器學習、可視化技術、軟件工程、計算機與網絡安全、計算機硬件、嵌入式系統、控制論、計算智能,微積幾何、概率論、數理統計、線性代數、離散數學、組合數學、計算方法、隨機過程、常微分方程、模擬和仿真、非線性分析等等。
生物學是研究生命現象、過程及其規律的科學,主要包括植物學等十幾個一級分支學科。整合生物信息學的課程設計可以提供以下課程:普通生物學、生物化學、分子生物學、細胞生物學、遺傳學、分子生物學、發育生物學、病毒學、免疫學、流行病學、保護生物學、生態學、進化生物學、神經生物學、基礎醫學、生物物理學、細胞工程、基因工程、分子動力學、生物儀器分析及技術、植物學、動物學、微生物學及其他生物科學、生物技術專業的技能課程。
作為獨立學科的生物信息學,其基本的新算法,新技術,新模型,新應用的研究是根本。課程涉及到生物信息學基礎、生物學數據庫、生物序列與基因組分析、生物統計學、生物芯片數據分析、蛋白質組學分析、系統生物學、生物數據挖掘與知識發現、計算生物學、藥物設計、生物網絡分析等。另外,整合生物信息學的工程應用,也需要了解以下學科,如生物工程、生物技術、醫學影像、信號處理、生化反應控制、生物醫學工程、數學模型、試驗設計、農業系統與生產等。
此外,整合生物信息學的人才培養具有很大的國際競爭壓力,培養優秀的專業人才,必須使其具備優良的生物信息科學素養,具有國際視野,知識能力、科研創新潛力俱佳的現代化一流人才。所以要始終緊跟最新的學術動態和發展方向,整合學科優勢和強化師資力量,促進國際交流。
五、總結及展望
二十一世紀是生命科學的世紀,也是生物信息學快速不斷整合發展的時代,整合生物學的研究和應用將對人類正確認識生命規律并合理利用產生巨大的作用。比如進行虛擬細胞的研究,整合生物信息學提供了從基因序列,蛋白結構到代謝功能各方面的生物數據,也提供了從序列分析,蛋白質拓撲到系統生物學建模等方面的信息技術,從多層次、多水平、多途徑進行科學研究。
整合生物信息學是基于現有生物信息學的計算技術框架對生命科學領域的新一輪更系統全面的研究。它依賴于生物學,計算機學,生物信息學/系統生物學的研究成果(包括新數據、新理論、新技術和新方法等),但同時也給這些學科提供了更廣闊的研究和應用空間,并推動整個人類科學的進程。
我國的生物信息學教育在近幾年已經有了長足的進步和發展。未來整合生物信息學人才的培養還需要加強各學科有效交叉,尤其是計算機科學,要更緊密地與生命科學結合起來,共同發展,讓我們的生命科學、計算機科學和生物信息學的教育和科研走得更高更前沿。
作者簡介:
關鍵詞:個性化習題;生物信息學;QQ群
中圖分類號:G811.4 文獻標志碼:A 文章編號:1674-9324(2016)48-0171-02
生物信息學是生物學、計算機科學和信息技術等支持的,包括存儲、組織和生物數據檢索的一個現代交叉學科。隨著分子生物學和信息技術的不斷突破,各種生物數據的獲得變得非常容易,但是如何對這些數據進行組織、分析和處理,并從中發掘出能用于解決生物科學問題的信息,成為目前生命科學的難點和熱點。生物信息學因此應運而生,其本身不僅是研究現代生物學,也是研究其對工業、醫療等重要領域影響的一門實踐性學科(Bloom,2001)。
一般認為,生物信息學主要滲透到統計數學、計算機和生命科學,尤其是生命科學的組學領域(郭麗等,2014),因此在教學中,生物信息學的教學內容往往因學生背景不同而會有不同的側重。這就需要教師根據學生的背景及知識結構的需求來合理安排教學。本文根據近年來對生物信息學教學的經驗,從教學方法、個性化練習題對學生上機的促進及QQ群投票功能在教學中的應用等方面進行了總結,對如何能夠提高生命科學學院的學生學習此門課程的興趣進行了探討。
一、現代教學方法的利與弊
隨著計算機科技的不斷進步,教學已經從傳統的板書模式進入到現代多媒體教學模式中。多媒體技術應用的初衷是提高學生的參與度,滿足教學手段更民主、多元化及個性化的教學目標,其優點為表現力豐富,可以通過動畫、視頻、圖像、音頻等效果將抽象難懂的問題直觀化。其次,節省了大量的板書時間,同時教師可將教學的重點、難點鏈接,以益于學生直觀地了解并進行思維拓展(張林,2011)。多媒體最明顯的一個特點就是教學容量加大,但正是這些優勢也伴隨相應的問題:(1)重形式而忽視教學內容。很多學校在進行教學管理及評價時,過分關注多媒體課件的形式以及學生的感受,導致有些教師過分注重多媒體的表現形式而忽視了教學的主要內容。(2)教學容量和學生的吸收量之間反差較大。由于教學內容和容量的增大,教師并沒有根據授課對象的具體情況合理安排和講授學科內容,而被動的成了多媒體的播放員和解說員。總之,多媒體教學利大于弊,因而成為教學改革和發展的必然產物,雖有缺點,但不能因噎廢食,需通過其他方法來克服弊端才能達到完美的教學效果。
二、個性化習題是學生實踐提高的強力推動器
生物信息學是一門實踐性非常強的學科,為了加強學生的實踐能力,教師要綜合應用啟發式、運用式及討論式等多種教學方法來激發學生的興趣。筆者在課堂實踐中,充分發揮個性化習題的作用,將教師的科研滲入到課堂,注重理論與實踐相結合,努力提高學生解決實際問題的綜合能力。比如,在講授第五章內容電子克隆部分,此章節目的是通過一段表達序列標簽(EST),綜合應用Blast、序列比對、步查法等方法查找各種數據庫,通過軟件的應用進行拼接、預測、去除內含子等方法,最終獲得可能的全長cDNA序列并加以注釋。在以往的教學練習中,全班同學的任務一樣,難以知道學生是否真正掌握所教授的內容,為此,筆者將學生分組,每組自行通過閱讀文獻獲得一條其感興趣的EST序列,或者利用他們的畢業論文中涉及的EST序列去進行電子克隆練習,通過這種個性化習題的隨堂練習,能顯著強化學生的計算機應用能力和實踐能力,同時也能提高學生在教學中的積極性、主動性和創新性。
三、發揮QQ群的投票功能在教學練習中的作用
生物信息學是一門交叉學科,對于非生物信息學專業的生命學院的學生而言,雖然教學大綱只要求學生掌握一些基本軟件的原理及數據庫的熟練使用。但是,這需要學生具有扎實的生物化學、遺傳學、細胞學及分子生物學的基礎知識。比如,在講授第三章“核酸序列的分析”時,會要求學生利用已知的EST序列去Blast查找與之有同源性的基因組序列,進行序列比對,預測并利用Bioedit軟件找出此基因的啟動子、終止子和剪接點。這首先要求學生必須明確這些分子生物學的概念,否則在有限的生物信息學課堂上,會變成分子生物學或遺傳學的復習課。而課外QQ群就起到了非常重要的交流促進作用。筆者在將QQ群的功能應用到課外教學輔助平臺的基礎上,充分發掘QQ群的投票及評論功能為教學所用,例如教授第三章前,將課件放到QQ群的文件中,讓學生去預習。為激發學生預習的主動性,要求學生在評論中列出對本章的主要知識點或難點,并對課件中涉及的名詞進行解釋。為進一步加強理解,對投票功能進行設置,相應的對投票選項1、2、3、4分別設置成A、B、C、D,這樣教師可根據需要將知識點轉化成練習題,以加強學生的學習。同時,也可鼓勵學生將一些新的感興趣的話題或問題置于QQ群。總之,QQ群的投票功能可以成為教師與學生課下交流的一扇窗口,成為生物信息學的一種及時且重要的學習工具。
四、建議與展望
生物信息學是一門新興學科,但我國無論是在對學科的重視還是發展程度上,與國外都存在一定的差距。在美國,計算生物學國際協會教育委員會一直致力于將生物信息學整合到高中生物教材中,學生在高中即接觸生物信息學,而且高校對高中生物信息學的教學提供相應的培訓課程和網上資源,生物信息學和其他分子生物學、植物學等一樣較早的深入到學生的知識體系中。而我國由于該學科產生的歷史較短,課程的開設集中在“985”、“211”重點院校的生物信息學專業,盡管近十年來,各大高校也意識到此學科的重要性,且課程也在逐步在開設,但由于學時短,很多教學僅限于學生掌握基本的數據庫的查詢。為使生物信息學能在普通院校的生命科學學院能很好的開展,各個高校應建立合適的課程教學內容。雖然近年“生物信息學”課程在各高校紛紛開設,但由于生物信息學是一門發展中的學科,它的理論及內容尚在不斷完善與更新中(郭麗等,2014)。因此,對于教材的選擇,不能只追逐信息量充足、內容新穎、知識選材前瞻性好的教材(楊娥等,2014)。作為普通院校的非生物信息學專業的本科生,想在較短的時間內(36課時)很好掌握如此大信息量的知識較為困難(劉宏生等,2010)。因此,需要依據學生基礎及院校的人才培養目標和現今生物信息學發展的現狀建立合理的課程內容體系。另外,由于缺乏合適的專業人才,生物專業的生物信息學的師資力量薄弱,無法建成高水平的教學隊伍。因此,加大生物信息學教師的培養力度,建成一支專業的、年齡和知識結構合理的師資隊伍,是提高本科院校生物信息學教學的關鍵問題之一。
參考文獻:
[1]Bloom,M. Biology in silico:The bioinformatics revolution[J]. The American Biology Teacher,2001,63(6):397-403.
[2]郭麗,趙楊,婁冬華,等.生物信息學實踐課教學改革探索[J].南京醫科大學學報(社會科學版),2014,(2):165-167.
[3]張林,柴惠.現代教學手段在生物信息學教學中的應用[J].新課程研究,2011,(219):156-157.
21世紀是生命科學的時代,也是信息時代。隨著分子生物學、測序技術以及人類基因組計劃的深入展開,各種生物醫學數據已達到海量級別。在后基因組時代,一方面是巨量的數據,另一方面是我們在醫學、藥物、農業和環保等方面對新知識的渴求,這些新知識將幫助人們改善其生存環境和提高生活質量。這就構成了一個極大的矛盾。如何從海量生物醫學數據中獲取新的知識呢?1956年,在美國田納西州蓋特林堡召開的首次“生物學中的信息理論研討會”上學者們提出了生物信息學的概念。1987年,林華安博士正式為這一領域定下生物信息學( Bioinformatics)這個稱謂,一門新興學科——生物信息學應運而生。
一生物信息學的學科特點
生物信息學是用數理和信息科學的觀點、理論和方法去研究生命現象、組織和分析呈現指數增長的生物醫學數據的一門學科。它主要包括兩重含義:一是對海量數據的收集、整理與服務,即管理好這些數據;二是從中發現新的規律,即利用好這些數據。生物信息學的實質就是利用計算機科學和網絡技術來解決生物學問題。它的出現極大地推動了分子生物學等相關學科的發展。它不僅是一門新學科,更是一種重要的研究開發工具。生物信息學幾乎是今后所有生物(醫藥)研究開發所必需的工具。
生物信息學與其他的生物醫學學科相比,有很大的不同,主要有以下三大特點:
第一,以生物醫學數據庫為基礎,數據極其龐大復雜。隨著組學時代的來臨與深入,生物醫學數據正呈現指數級別的增長。根據權威的《Nucleic Acids Research》統計,截止2014年,全球共有約2100個主要的生物醫學數據庫,涵蓋了生物醫學研究的諸多領域。從研究層次上看,包括核酸、蛋白質、結構、基因組、蛋白質組、人類基因和疾病、細胞器官、免疫學等14類數據庫。從研究種類上說,包括動物、植物、真菌、原核生物、病毒等30余萬種生物。僅登錄在美國GenBank數據庫中的核酸序列就超過1億條,DNA序列總量超過1000億堿基對;在UniProt中,共收錄蛋白質序列約1000萬條;在PDB中,共收錄蛋白質結構數據超過8萬個。
第二,生物信息的操作分析主要以計算機為工具,在互聯網環境中運行,通過網絡強大的搜索功能完成數據收集、儲存、管理與提供。
第三,生物信息學是一門生物醫學、數學、信息科學以及計算機科學等諸多學科綜合交叉的前沿產物,與其他學科相比,綜合交叉性強、難度大、發展時間短、還在不斷完善與更新中。因而目前還沒有成熟的生物信息學教學模式,各高校,尤其是醫學院校,尚處于摸索探討的階段。 二生物信息學現有教學模式的不足之處 目前,國內的生物信息學教學基本沿用以“教師講授為主”的傳統教學模式。以課堂為中心、以理論教學為主,進行“滿堂灌”式教育,“照本宣讀”的方式也比較常見。缺乏與生物信息學交叉前沿性特點相適應的新型教學模式。同時,實驗教學方式比較單一,常以驗證性為目的,有些甚至成為了“文獻檢索”課程,缺乏和專業相適應的綜合性、設計性實驗,結果出現了理論和實踐相脫節的現象。 三關于PBL應用于生物信息學教學的探索 1PBL教學法的優勢 “基于問題的學習(Problem based leaming)”,簡稱PBL,是美國廣泛采用的一種探究性、任務驅動式學習模式。此方法與傳統以學科為基礎的教學法有很大的不同,強調以學生的主動學習為主,而不是傳統教學中強調的以教師講授為主,比如將學習與更大的任務或問題掛鉤、使學習者投入于問題中、設計真實性任務、鼓勵自主探究、激發和支持學習者的高水平思維、鼓勵爭論、鼓勵對學習內容和過程的反思等。在醫學教育中,PBL教學強調以設置問題的方式為學生創造一種特定的疾病發生的情境和診治的氛圍,通過學生的相互協作來共同解決實際問題,最終實現培養學生獨立處理和解決實際問題的能力的目標。這種教學模式很好地解決了理論與實際脫節的矛盾。
2 PBL教學法在生物信息學教學中的實際應用
(1)分組。根據能力和興趣分組,選擇能力互補且有共同興趣的學生組成不同學習小組,一般以3—4人為一組,對于總體能力特別強的小組可以適當減少人數。
(2)提出教學目標,布置真實性任務。首先,布置基礎性教學任務,這類教學任務的目的是為了鞏固學生的基礎知識,培養學生的基礎能力。例如,該類任務可由四個子科目組成:“生物醫學數據庫識別與理解”、“通過Entrez和SRS系統進行生物醫學數據的檢索利用”、“blast序列比對”、“clustalw多序列比對”。這是必選任務,每個個組都必須完成,為下一步實行探究性任務打下基礎。
然后,根據不同小組的興趣和特點,分配不同的探究性任務。例如,“新基因的發現與鑒定”、“某某疾病基因的分析與鑒定”等。這類問題并無現成答案,學生必須自己查閱資料、進行歸納分析、確定實驗步驟、完成任務。例如,對于“新基因的發現與鑒定”這項任務,最終可由如下步驟組成:①利用EST數據庫獲得基因重疊群;②新基因的拼接獲得;③所得基因的性質分析;④啟動子分析;⑤編碼區分析;⑥新基因的人工翻譯;⑦所得蛋白質的功能分析。這些步驟和每一步的實現方法都將由學生在已有的知識基礎上,通過查找文獻、互相討論、探索獲得,最終完成該項任務,寫出任務報告。
(3)定期討論。定期安排學生集中討論。每次討論主要完成兩方面工作:一是對任務進展進行報告,二是對所遇到的問題進行互相交流。教師全程參與,對疑難問題作出提示和建議。
(4)成果匯報。任務完成后,進行集中匯報。讓學生對任務期間所做工作、獲得的結果進行匯報。
(5)教師評價、反饋。由指導教師對任務完成過程及結果進行點評,對學生掌握知識的程度及學生的科研、應用能力進行評價,并提出進一步的提高方向。
(6)延伸階段。鑒于生物信息學都是在臨近畢業時進行教學,對于有興趣的學生,可以將探究性任務擴展成畢業設計,進行模塊化分流教學。
3在生物信息學中運用PBL教學法的優勢
(1)生物信息學的學習是一個運用生物醫學、數學、信息科學以及計算機科學等諸多學科知識進行分析、判斷、推理、綜合的實踐過程,PBL教學法的應用可充分調動和發揮學生的主觀能動性,著重培養學生解決實際問題的綜合分析、判斷及實踐動手能力。
(2)在保證教學質量的前提下,可明顯減少傳統的灌輸式教學工作和學習的負擔,同時能讓學生在短時間內熟悉多種生物醫學數據庫、掌握多種生物信息軟件的使用方法、了解生物信息手段在生物醫學中的各種應用。
(3)在相互合作的過程中,學生不僅學到了獲取知識的方式,更重要的是提高了學生的興趣、交流意識和團隊責任感等科研必備素質和能力。
(4)在完成真實性任務的過程中,可讓學生熟悉完成科研工作的方法步驟,培養學生完成科研任務的能力。
【關鍵詞】生物技術;計算機;應用
【中圖分類號】Q50 【文獻標識碼】A 【文章編號】1672-5158(2013)01―0046-01
進入二十一世紀以來,由于研究的深入,對知識的進一步認識和了解,許多學科之間都有了一些交叉,尤其是一些新興學科之間的相互交叉,廣泛滲透更是對科學的發展起了很大的促進作用,人們進一步提升對自然界的認識,對人類本身也有了進一步的了解。隨著科學技術的不斷發展,尤其是計算機技術的飛速發展,計算機在其中的應用范圍也日益擴大,計算機和藥學兩者互相影響、互相滲透、互相結合,密不可分。
1、生物技術與信息技術的關系
信息技術和生物技術都是高新技術,二者在新經濟中并非此消彼長的關系,而是相輔相成,共同推進21世紀經濟的快速發展。信息技術為生物技術的發展提供強有力的計算工具。在現代生物技術發展過程中,計算機與高性能的計算技術發揮了巨大的推動作用。如今,人們越來越清醒地認識到,超級計算機在創造新品種的藥物、治愈疾病以及最終使我們能夠修復人類基因缺陷等方面是至關重要的,高性能計算可以為人類作出更大的貢獻。生物技術推動超級計算機產業的發展。隨著人類基因組計劃各項任務的完成,有關核酸、蛋白質的序列和結構數據呈指數增長。面對如此巨大而復雜的數據,只有運用計算機進行數據管理、控制誤差、加速分析過程,使得人類最終能夠從中受益。然而要完成這些過程,并非一般的計算機力所能及,而需要具有超級計算能力的計算機。因此,生物技術的發展將對信息技術提出更高的需求,從而推動信息產業的發展。生物技術將從根本上突破計算機的物理極限。運用數學、計算機科學和生物學的各種工具,來闡明和理解大量基因組研究獲得數據中所包含的生物學意義,生物學和信息學交叉、結合,從而形成了一個新的學科。生物信息學或信息生物學,它的進步所帶來的效益是不可估量的。
2、計算機在生物技術中的應用分析
生物醫學工程運用現代自然科學和技術科學的原理和方法,從工程學的角度研究人體的結構、功能及其相互關系以及其他生命現象。其目的是解決醫學問題,即研究和開發為防病、治病以及人體功能輔助等醫學應用的裝置和系統。用技術科學的概念和方法來解釋和描述人體各層次的成份、結構和功能,以及人體各種正常生理功能和病理狀態之問的差異,這些內容形成了這個學科的基礎部分。而防病、診斷、治療及功能輔助的具體技術和設備則形成這個學科的應用部分。
2.1 計算機技術在生物信息學中的應用
生物信息學在今后的無論是生物醫藥科研還是開發中都具有廣泛而關鍵的應用價值;而且,由于生物信息學是生物科學與計算科學、物理學、化學和計算機網絡技術等密切結合的交叉性學科,使其具有非常強的專業性,這就使得專業的生物醫藥科研或開發機構自身難以勝任它們所必需的生物信息學業務,殘酷的市場競爭及其所帶來的市場高度專業化分工的趨勢,使得專業的生物醫藥開發機構不可能在自身內部解決對生物信息學服務的迫切需求,學術界內的生物醫藥科研機構也是如此,而這種需求,僅靠那些高度分支化和學術化的分散的生物信息學科研機構是遠遠不能滿足的。可見,在生命科學的新世紀,生物信息學綜合服務將是一個非常重要的也是一個極具挑戰性的領域。
2.2 計算機在微生物學中細菌生化反應上的應用
細菌學的計量檢驗是醫學檢驗現代化的種重要手段。此檢驗技術是通過收集已確證的統計資料,并將系列生化反應試驗的反應結果數值化,按照一定的數學模型進行多元分析,利計算機的運算速度和記憶能力,檢驗標本作出規范化的定量鑒定。實現這一計量鑒定,我采用了計算機輔助編碼撿索系統(CAIS)菌科細菌系列生化反應機輔檢索程序(CAE-15)、(eAE-I)輸入微機。通過各項生化反應結果及增補試驗結果所得的編碼數經過人工查詢,從計算機編程的“縮碼檢索手冊”中直接查找指定編碼的細菌概率分布和相應的補充試驗。計算機在微生物中的應用,不僅節約了時間和人力,而且鑒定結果準確可靠,避免主觀誤。
2.3 計算機在破譯遺傳密碼和管理基因數據方面的應用
計算機在破譯遺傳密碼和管理基因數據方面的潛力,在加利福尼亞大學圣迭分校的生物化學教授杜利特爾及其同事的工作中得以體現。他們在年進行的工作中只通過分析計算機打印輸出的數據就獲得了一個重要的生物學發現。杜利特爾教授的研究小組比較了兩個由計算機打印輸出的蛋白質序列,發現一種與癌癥發生有關的序列和一種與細胞生長有關的序列完全一樣,揭示出癌基因引起了細胞的不正常生長。這一發現在沒有進行過任何一實驗的情況下就獲得了。
2.4 計算機在創造生物的虛擬環境方面的應用
計算機還正被用于創造一個虛擬的生物環境,以便對復雜的生物網絡和生態系統進行模擬。這種虛擬環境創造不同的情境,幫助研究人員產生新的假說,并在實驗室里被用于檢測新的農業和制藥產品以及醫學活體實驗。在虛擬世界里,生物學家敲敲鍵盤就可以產生新的合成分,而在實驗室經常需要幾年時間才可能合成一個真正的分子。有了三維的計算機模型,研究人員可以在屏幕上將各種基因和分子進行組合,然后觀察它們的相互作用情況。年,賓夕法尼亞州立大學和位于加利福尼亞拉霍亞的斯克里普斯臨床研究所的研究人員,通過使用最先進的計算機首次設計了一種極有價值的合成分子。這種被命名為的化合物是在計算機屏幕上構想出來的,幾家生物技術實驗室正在進行該化合物的批量生產。科學家們打算通過使用新的信息時代的計算技術造出多種多樣的新分子。
2.5 計算機在生物醫學工程中的具體應用
生物醫學工程運用現代自然科學和技術科學的原理和方法,從工程學的角度研究人體的結構、功能及其相互關系以及其他生命現象。其目的是解決醫學問題,即研究和開發為防病、治病以及人體功能輔助等醫學應用的裝置和系統。用技術科學的概念和方法來解釋和描述人體各層次的成份、結構和功能,以及人體各種正常生理功能和病理狀態之間的差異,這些內容形成了這個學科的基礎部分。而防病、診斷、治療及功能輔助的具體技術和設備則形成這個學科的應用部分。
3、發展前景
計算機在生物醫學工程中應用的例子還很多,并且發揮著越來越重要的作用,同時對計算機技術水平的要求也越來越高。比如在生物醫學信號處理方面,普通的計算機已經很難勝任實時處理的能力,使人們轉向研究處理速度更快的專門處理器件DSP芯片。在人工智能方面,往往還需要功耗更低、存儲更大的微計算機。因此,生物醫學工程在利用計算機的同時也促進了計算機的發展。二十一世紀是生物技術的世紀,信息生物學是自然科學中發展最迅速、最具活力和生氣的領域,并且為人類帶來了很大的便利與貢獻。不難看出,生物計算機研制成功以后,又會帶來一次革命,它將會給人類帶來更多的福祉,世人將以期盼的心情等待它的出現。隨著科技的發展,隨著生物技術的發展,它將越來越離不開計算機。不但如此,計算機和生物技術更越來越緊密結合。將更快地促進兩者的發展。
參考文獻
[1]張宜,湯韌.計算機單機及局域網在藥學領域應用發展回顧及現狀[J].武漢總醫院雜志,2005,13(4):12
【關鍵詞】計算機應用;人工智能;生物信息學;數據挖掘技術
【中圖分類號】TP391
【文獻標識碼】A
【文章編號】1672—5158(2012)10-0078-01
一、生物信息數據庫的現狀及問題
在生物信息學的發展過程中,逐步建立起了大量基于網絡的生物數據庫,而且開發了眾多檢索工具,從而實現了生物信息數據的智能處理和綜合分析。生物信息數據在具有增長迅猛、更新及時、種類繁多等特點的同時,更表現出高度的復雜性、多樣性和不一致性。
隨著生物信息數據量的激增以及數據處理能力的復雜程度不斷提高,現有的生物信息數據庫已經逐漸暴露出許多問題。三大核酸數據庫依靠傳統方式交換數據,無法及時反應出其他專用生物信息數據庫的變化情況以及非核酸類數據信息。網上所提供的大部分數據分析工具采用面向問題的搜索方法,搜索效率隨著問題規模的擴大而降低,并且無法智能地對數據中存在的未知知識進行發掘。為此,在后基因組時代,需要將數據倉庫思想及智能數據挖掘技術運用到生物信息學領域中。
二、基于生物信息數據倉庫的數據挖掘技術
(一) 生物信息數據庫中的算法工具
在生物信息學中,基因比對是最常用和最經典的研究手段。在核酸序列或蛋白質序列之間進行兩兩比對,比較兩個序列之間的相似區域和保守性位點,尋找二者的相似形、同源性,進而探尋可能的分子進化關系,揭示序列中蘊涵的結構、功能等信息。數據挖掘主要存在以下幾種經典分析模式:關聯模式分析、序列模式分析、分類分析、聚類分析,其中關聯模式分析應用最為廣泛。
(二) OLAP和數據挖掘技術
傳統的針對數據庫的開發工具多為聯機事物處理模式,它主要是面向具體的查詢和統計,有著較為具體的應用目的。然而隨著越來越多數據庫的出現,數據量的迅猛增長,OLTP在數據資源的充分利用、為用戶提供有效支持和幫助等方面,則顯得力不從心。因此,基于數據倉庫的聯機分析處理以及數據挖掘引起了日益廣泛的關注和應用。OLAP是一種自上而下、不斷深入的分析工具。用戶提出問題或假設,OLAP則負責從上而下深入地提取出關于該問題的詳細信息,并以可視化的方式呈現給用戶。DM是一種決策支持過程和挖掘性工具,它主要基于人工智能、機器學習、統計學等技術,高度自動化地對原始數據進行分析,發現隱藏在數據中的模式,做出歸納性和預測性的推理。
(三) 基于生物信息數據倉庫的數據挖掘技術
實現數據挖掘的前提條件是必須具有海量數據,而這恰恰是數據倉庫的基本特點之一,二者緊密結合可以有效解決大量應用中出現的問題。在生物信息學領域,使用數據挖掘技術可以大幅提高研究人員的工作效率,改變原有的預測法;數據挖掘算法還可以結合生物信息專業領域的公式算法,根據研究人員的設想,對數據進行全面高效的分析。
基于數據挖掘等技術發展起來的智能決策技術具備了在生物信息學領域中大展身手的天賦,特別是基于海量數據的數據挖掘和開采技術更具有廣泛的需求和應用背景。另一方面,目前生物信息學的研究方法和發展情況,已經形成了較為完善的智能決策系統,成為數據倉庫和數據開采較為成功的應用案例。另外,現有各種生物信息應用分析軟件從一定程度上講,已經反映并且實現了數據倉庫及數據挖掘的思想和技術。
三、實現生物信息異地多源數據庫的綜合利用
(一) 建立基于Web的生物信息數據倉庫
基于現有的生物信息數據庫,運用數據倉庫思想,利用OLAP和數據挖掘技術,建立生物信息數據倉庫,是一種不需要大幅增加硬件設備以及物理裝置的前提下,實現基于Web平臺的生物信息集成與處理平臺的可行方案。設計一個基于Web的生物信息數據倉庫,其主要結構由五部分組成:外部數據源;基于Web的數據調度、傳輸;數據的變形整合;元數據規則、元數據管理;基于Web的綜合管理平臺。
DWBW以DDBJ/EMBI/GeneBank作為主要數據源,同時以其他主要的生物信息數據庫作為整個數據倉庫的基本數據源。通過分析數據庫結構和數據結構類型,建立DWBW的元數據規則。這樣,基于上述各種數據庫就可以建立起一個基于Web的虛擬數據倉庫,由于不存在一個物理上位于某地的存儲中心來保存這些數據,用戶面對的只是基于網絡的分布式虛擬的數據倉庫。其模型、算法的運行由專用的分析工具服務器來完成,而對于數據的調用和整理都是在源數據庫上進行的,根據不同用戶提交問題的不同,具體分析過程則由分配服務器交給服務器去完成分析,只是最終將結果返回請求分類服務器,顯示給用戶。
DWBW將通過統一的基于Web的頁面與用戶進行交互,在后臺則主要由請求分類服務器、Web服務器及專用分析工具服務器共同完成對問題的提交和分析,實現對數據倉庫元數據規則的理解,然后根據分類的結果,與相關分析工具進行匹配,將問題提交到相應的分析工具服務器進行處理。處理完成后返回給請求分類服務器,進而返回給提交問題的用戶。
(二) DWBW的關鍵技術
生物信息學元數據的抽取。數據的整理和抽取,是開發所有數據倉庫時所遇到的最難解決也是最具挑戰性的問題之一。將不同時期生成的大量歷史數據中的數據結構、字段的定義以及對象之間的關系等一系列的描述信息整理出來,并制定一套通用可行的規范,本身就是一個工作量巨大、難度極高的問題。因此,數據倉庫元數據的抽取整理,成為建立DWBW的關鍵問題。數據抽取、清洗、轉換和裝載過程與一般數據倉庫建立過程中的數據整理不完全相同,其數據具有規范性強,存儲結構相對簡單,轉換、裝載容易等特點。
虛擬生物信息數據倉庫的建立。虛擬生物信息數據倉庫實現對生物信息平臺相關數據的組織和集成,并且將不同主題的數據對象分別存儲到各個數據集市中,同時還將建立起部分有價值數據的在線OLAP數據庫。虛擬數據倉庫采用中間件充當數據中心,提供信息的訪問接口,對存貯在不同數據源的生物信息數據進行存取操作。由于虛擬生物信息數據倉庫一般不是針對實時數據進行分析統計,所以對于時間效率的要求不如一般查詢統計那么高,這就確保了開發處于不同物理位置數據源的虛擬DWBW具有可行性。同時,對于一般性的查詢比對等基本操作,不會影響其工作效率和準確性。
基于Web面向用戶的綜合平臺的開發設計。此平臺主要提供一個用戶操作的平臺,除了集成基因比對、功能預測、序列分析、基因提交等傳統的操作以外,還允許用戶對虛擬數據倉庫中的數據運用數據挖掘技術,提供更多的分析支持工具。
本書共有38章:1.G.N.Ramachandran的學術遺產與印度結構生物學的發展;2.膠原三螺旋結構研究綜述;3.Ramachandran先生豐厚的學術遺產;4.“相圖”擴充:更多數據、更多維度、更多用途;5.拉氏圖和蛋白質結構驗證;6.拉氏圖的非參數統計分析;7.拉氏圖封閉區的非甘氨酸殘基及其鄰位偏好性;8.蛋白質相似結構的二面角變異性分析;9.α碳原子示蹤與扭矩角分析α螺旋幾何量:一個比較;10.拉氏圖不同區域對蛋白質中氨基酸殘基的傾向性;11.多肽構象粗晶分析的立體化學;12.多蛋白組裝:靶向蛋白-蛋白相互作用以調控細胞生化活性;13.蛋白-蛋白復合物結構的預測;14.抗體特異性研究的新范式:種系抗體識別的結構生物學;15.蛋白質組,蛋白折疊盒自關聯:NMR技術最新進展;16.用計算方法研究蛋白質復合物識別機制;17.蛋白質三級結構的普遍性:一些新概念;18 冷休克結構域――單鏈RNA結合和重塑與分子模塊的多變性;19.DNA蛋白質復合物中的DNA螺旋轉換;20.D氨基酸:產生、立體化學和翻譯機制規避;21.多肽設計中用構象性限制殘基誘發折疊結構;22.環β-氨基酸作為構象限制劑;23.蛋白質二硫鍵分析與設計;24.強扭曲和卷曲β-發卡結構及其在蛋白質折疊中的作用;25.負責結構域交換的蛋白質鉸鏈區的鑒定和構象分析;26.內生性異常蛋白:結構-功能范式的重讀;27.內生性異常蛋白:調控與疾病;28.T細胞賴氨酸激酶ZAP-70調控的結構基礎;29.模擬蛋白功能調控的構象動力學控制;30.σ因子-抗σ因子復合物的構象特征;31.Ⅱ型 5-磷酸吡哆醛依賴的酶:結構、底物識別與催化;32.分子內同構多肽鍵:菌毛和細胞表面粘附中新的翻譯后修飾;33.結構生物信息學解析次生代謝物的生物合成密碼;34.加速化分子動力學:生物分子模擬的效應提高取樣法;35.E.coli膽色素原去氨基酶四聚體化時的結構動態;36.抗凋亡MCL1和A1蛋白憎水溝的可塑性;37.用不規則維度法研究蛋白質結構的有效性;38.MOLS技術檢測甲硫氨酸-腦啡肽景觀結構的內生性。
作者Manju Bansal是位于班加羅爾的印度科學理工學院的教授,N Srinivasan是此校的副教授。Manju Bansal研究領域是核酸結構、原核和真核生物啟動子結構,DNA結構穩定性,DNA構象柔性,DNA配體結合動力學,蛋白質二級結構。N Srinivasan的研究主要用計算方法研究蛋白質結構、功能及相互作用,細胞信號傳導和生物通路。
本書適合結構生物學、計算生物學、分子生物學和生物化學、生物信息學、藥物化學領域的專家、學者和研究生閱讀。
關鍵詞:生物學;信息;支持向量機
中圖分類號:R392
在免疫學[1]中認為,表位才是抗原刺激機體免疫系統產生特異性免疫應答的真正部位。B細胞表位預測是表位預測的一個重要組成部分,大多數的研究是針對線性B細胞表位預測,通過組合抗原蛋白物理化學性質、結構性質、統計顯著性度量等特征屬性進行表位預測,并取得一定的研究成果。
1 抗原表位[6]的大小與相應抗體的抗原結合部位相適合
一般情況下,一個多肽表位含5~6個氨基酸殘基;一個多糖表位含5~7個單糖;一個核酸半抗原的表位含6~8個核苷酸。一個抗原表位的特異性由組成它的所有殘基共同決定,但其中有些殘基在與抗體結合時比其它殘基起更大作用,這些殘基被稱為免疫顯性基團。免疫應答過程中,T細胞的TCR和B細胞的BCR所識別的表位具有不同特點,分別被稱為T細胞表位和B細胞表位。
2 基于SVM的線性B細胞表位預測采用貝葉斯特征提取方法[2]
B細胞表位的抗原-抗體之間的相互作用機制,在疾病的預防和診治中發揮了極大的推動作用。實驗方法通常是費力和耗時的,在硅片方法進行預測這些免疫原性的區域是關鍵的。這樣的努力,已經顯著以高阻礙可變性的抗原表位序列的長度和組成,使得初治建模方法難以適用。結果:分析了兩個標準數據集,發現線性B細胞表位具有鮮明的殘基保守性和特定位置的殘留物傾向性這可能被利用在硅片表位識別中。開發了一種支持向量機(SVM)預測模型,采用貝葉斯特征提取預測多種不同的長度的線性B細胞表位。最好的SVM分類器實現了準確度為74.50%和AROC為0.84在一個獨立的測試集中,并證明優于現有的線性B細胞表位預測算法。
3 UniProt[3]
全球蛋白質資源(Universal Protein Resource,UniProt)這個數據庫是全球有關蛋白質方面信息最全面的資源庫,是蛋白質序列以及功能信息的集中資源,且其具有最小的冗余。UniProt是對PIR、TrEMBL以及SwissProt的信息進行組合而構成的。UniProt提供了完全分類的、有豐富且準確注釋信息的基于知識的蛋白質序列信息,且有廣泛的交叉引用以及多種查詢界向。出于方便序列查詢,UniProt同樣提供了多個非冗余序列數據庫。
UniProt由三部分內容組成,分別是UniProtKB、UniRef和UniParc,每個部分偏向于不同的用途。
3.1 UniProtKB(the UniProt knowledgebase)是基于知識的UniProt,通常也簡稱為UniProt[7],它匯聚了蛋白質的主要信息,包括蛋白質功能、分類以及交叉引用。UniProtKB包含兩個部分:一部分是人工注釋的記錄,這部分注釋信息是來自于文獻信息和在專家監督下進行計算機分析而得到的(記為UniProt,SwissProt);另外一部分是直接利用計算機程序獲得的記錄信息。
3.2 UniRef即UniProt非冗余參考數據庫,它把緊密相關的序列信息進行組合并記錄到一個記錄條目中去,這樣一來便于加速序列搜索。前面提到的UniProtKB中的數據是嚴格根據某一物種的可靠而又穩定的序列信息資料而得到的,而UniRef100則是將UniProtKB中不同物種的序列信息進行交叉合并處理后的條目,它包含了UniProtKB中的所有記錄信息。UniRefl00還包含了UniParc的記錄,UniParc中的序列被認為是過度表達的以及不包含在一些已知數據庫中的序列信息,比如說DDBJ/EMBI,/GenBank中的全基因組短槍法數據(WGS)編碼蛋白的翻譯產物,Ensembl中從不同生物體內翻譯得到的蛋白質以及國際蛋白質索引(International Protein index,IPI)數據。
3.3 UniParc即UniProt檔案庫(UniProt Archive),它廣泛存儲所有公開發表過的蛋白質序列,只包含唯一的標識符和序列。大多數蛋白質序列數據是從DDBJ/EMBL/Geni3ank中的核酸序列翻譯過來的,而大量由蛋白質測序實驗直接得到的初級蛋白質序列數據又直接上傳到其他資源庫中去。
4 機器學習方法簡介
4.1 決策樹。實際上是將空間用超平面進行劃分的一種方法,每次分割的時候,都將當前的空間一分為二,這樣使得每一個葉子節點都是在空間中的一個不相交的區域,在進行決策的時候,會根據輸入樣本每一維特征值,一步一步往下,最后使得樣本落入N個區域中的一個(假設有N個葉子節點)。
4.2 隨機森林。用隨機的方式建立一個森林,森林里面有很多的決策樹組成,隨機森林的每一棵決策樹之間是沒有關聯的。在得到森林之后,當有一個新的輸入樣本進入的時候,就讓森林中的每一棵決策樹分別進行一下判斷,看看這個樣本應該屬于哪一類(對于分類算法),然后看看哪一類被選擇最多,就預測這個樣本為哪一類。每一棵決策樹就是一個精通于某一個窄領域的專家,這樣在隨機森林中就有了很多個精通不同領域的專家,對一個新的問題(新的輸入數據),可以用不同的角度去看待它,最終由各個專家,投票得到結果。
4.3 支持向量機。一種有堅實數學理論基礎的小樣本學習方法,支持向量機被廣泛應用在統計分類和回歸分析領域中,最終的決策函數只由少數的支持向量所確定,而不是樣本空間的維數,避免了訓練樣本數量對分類速度的影響。但是經典的支持向量機給出的只是二類分類問題的解決方法,而在實際應用中,這種情況非常好,大多數都是多分類問題。
4.4 隱馬爾可夫。我們知道,馬爾可夫模型中每個狀態對應一個可觀察的輸出符號,它們的關系是一一對應的,但是很多實際問題往往是復雜的,每個狀態可觀察到多個觀察符號之一。因此,這時的馬爾可夫模型的可觀察的輸出符號序列是狀態的一個函數,也就是說該模型是由兩個隨機序列組成,一條是隱藏起來的狀態序列,簡稱為隱狀態序列,另一條是由該隱狀態序列產生的可觀察的輸出符號序列。HMM在20世紀60年代末70年代初提出,是一種典型的統計方法,是一種用參數表示的、用于描述隨機過程統計特征的概率模型。1970年左右,Baum等人建立起HMM的理論基礎。Rabiner詳細地對HMM做出了介紹,才使得各國的學者漸漸了解并熟悉該模型,進而成為了公認的研究熱點。
5 線性B細胞表位的應用
5.1 豬帶絳蟲六鉤蚴 TSO45-4B 抗原 FnⅢ結構域相應的線性 B 細胞表位肽免疫原性研究[4]。其目的是觀察載體蛋白偶聯的TSO45-4B抗原FnⅢ結構域相應的線性B細胞表位肽誘導的體液免疫反應。方法:人工合成TSO45-4B抗原FnⅢ結構域2條預測表位肽,偶聯鑰孔血藍蛋白免疫小鼠,采用 ELISA 法檢測小鼠血清中預測表位肽特異性抗體滴度。結果:免疫小鼠血清中檢測到1條預測表位肽特異性抗體,其效價達到1∶1280。結論:設計的1條TSO45-4B抗原FnⅢ結構域線性B細胞表位肽可誘導小鼠產生體液免疫反應。
5.2 HBeAg 的 B 細胞線性表位預測及鑒定[5]。預測并鑒定乙型肝炎病毒e抗原(HBeAg)的B細胞線性表位,為乙型肝炎的診斷和治療提供新的依據。方法采用生物信息學分析技術,利用NCBI數據庫和免疫表位數據庫提供的相應軟件預測HBeAg的B細胞線性表位,采用人工合成法合成相應表位肽并分別將與血藍蛋白(KLH)偶聯,作為免疫原,免疫大白兔制備抗HBeAg抗原表位抗體,ELISA法鑒定抗體的特異性。結果發現了1MDIDPYKEFG10、37LYREALESPEHCSP50、74SNLEDPAS81、127RTPPAYRPPNAPIL140等4條新的HBeAg蛋白B細胞線性表位肽,其與KLH的偶聯物作為免疫原免疫大白兔,獲得特異性高效價抗體,抗體滴度大于1∶512000,ELISA 實驗證實上述抗體均可與HBeAg發生特異性免疫反應。結論采用生物信息學技術成功確認了4個HBeAg蛋白B細胞線性表位肽,為深入研究HBeAg的功能和作用以及乙型肝炎的治療提供了新依據。
6 結束語
線性B細胞表位的預測是用于疫苗設計的重要,開發診斷試劑,以及解釋抗原-抗體相互作用在分子水平上。在近年來,隨著各種組學的發展和構象的生物信息學,相關的實驗數據線性B細胞表位已經被迅速地提出。建全相關數據庫促進線性B細胞表位的預測發展,在這項研究中,我們總結了生物信息資源和機器學習方法的線性B細胞表位的預測。基于機器學習方法的線性B細胞表位的預測極大地降低線性B細胞表位定位的時間成本和人工成本,提高工作效率,智能搜索算法可以提高的方法的有效性,以及預測性能。
參考文獻:
[1]馮新港.免疫信息學原理及其應用[M].上海:上海科學技術出版社,2009,6:1-5.
[2]Alix,A. (1999) Vaccine,18,311314(314).
[3]http:///[DB].
[4]王媛媛,陶志勇.豬帶絳蟲六鉤蚴TSO45-4B抗原FnⅢ結構域相應的線性B細胞表位肽免疫原性研究[J].蚌埠醫學院學報,2013,05.
[5]Jun Yang,Ni Liu.Prediction and identification of B-cell linear epitopes of hepatitis B e antigen.J South Med Univ,2013,33(2):253-257.
[6]黃艷新,鮑永利,李玉新.抗原表位預測的免疫信息學方法研究進展[J].中國免疫學雜志,2008,09-20.
[7] http://ncbi.nlm.nih.gov/genbank/[DB].
[8]Fattovich G,Bortolotti F, Donato F. Natural history of chronic hepatitis B: Special emphasis on disease progression and prognostic factor[J].JHepatology,2008,48(2):335-52.
[9]Liaw YF.HBeAg seroconversion as an important end point in the treatment of chronic hepatitis B[J]. Hepatol Int,2009,3(3):425-33.
[10]Lau GK, Wang FS. Uncover the immune biomarkers underlying hepatitis Beantigen (HBeAg) seroconversion:a need for more translational study[J]. JHepatol,2012,56(4):753-5.
[11]Roseman AM,Berriman JA., Wynne SA., et al. A structural model for maturation of the hepatitis B virus core[J]. Proc Natl Acad Sci USA, 2005,102(44):15821-6.
[12]Yasser EL-Manzalawy, Vasant Honavar.Recent advances in B-cell epitope prediction methods[J]. Immunome Res,2010,6(Suppl 2):S2.