前言:想要寫出一篇引人入勝的文章?我們特意為您整理了網絡信息資源電子技術論文范文,希望能給你帶來靈感和參考,敬請閱讀。
1996年InternetArchive的成立拉開了網絡信息資源存儲的研究和實踐的序幕。雖只有十幾年的發展歷程,但是其技術卻有了長足的發展。規模從最初的百萬數據到現在的數十億的URL采集,項目的自己投入越來越多,項目的難度也越來越高。從1996年到1999年間,首先InternetArchive的成立,然后歐美各國紛紛開始網絡信息資源存儲項目的實驗。在1996年,澳大利亞國家圖書館發起PANDORA項目,其目的在于保存澳大利亞的在線出版物,包括社會科學、政治、經濟、宗教、自然科學、文化等重要文獻資產。同時澳大利亞國家圖書館還領導了另一個重要的項目——是關于數字資源保存主題的門戶網站PADI,其目的是為了提供一種機制,幫助確保數據格式信息能夠被有效管理、保存和提供未來訪問。1997年北歐圖書館了開啟了NWA項目,該項目借鑒了Kulturarw3的Web信息資源采集項目的經驗,其目的是根據在網絡中進行保存、訪問等操作的要求而制定出相關的技術規格,協助國家項目的協調發展,聯合北歐各國圖書館建立歐洲網絡資源長期保存的合作機制。1997年在美國還開展了項目,該項目是美國國會圖書館負責的。其目的是為有關Web信息的數字化、元數據、選擇和采集、長期保存與獲取方面的實際問題提供試驗,從而為美國國會圖書館運行一個大規模的Web信息保存項目提供指導和經驗。以上介紹的屬于網絡信息資源存儲的初始起步的實驗階段,主要目的都是為以后的項目提供各種借鑒經驗。從2000開始到2005年時網絡信息資源存儲的實際應用部署階段。該階段歐美各主要國家已經開始對網絡信息資源存儲高度重視,并已經開設從國家層面進行思考和作戰略計劃。因此該階段具有以下幾個特點:
(1)以國家或區域為單位的戰略合作保存體系發展迅速
(2)網絡信息資源存儲項目研究的內容和深度得到極大的擴展
(3)國際機構與會議更加關注網絡信息資源存儲
(4)網絡信息資源存儲系統越來越受到重視,其發展和應用也越來越廣泛
2000年年美國國會圖書館提出了“國家數字信息基礎設施及保存計劃”,其中包括立即收集和保存可能瞬間即逝的Web數字信息。2001年挪威國家圖書館開始實施Paradigma項目,英國國家圖書館啟動試驗性項目DomainUK。2002年第68屆IFLA理事會對以往國家層面網絡信息資源采集(如NWA)的經驗予以總結,探討網絡信息資源保存的法律問題。2003年六月,由來自多個國家的12個成員機構組成的國家網絡保存聯盟正式成立。自2005年以后,網絡信息資源存儲技術進入了長遠發展階段。在網絡信息資源存儲相關項目的實驗研究、應用部署發展的基礎上,相關的組織機構相關的組織機構、項目對如何更好的將Web資源呈現給用戶,提供檢索服務,并進行相應的數據挖掘以用于學術研究、追蹤動態等網絡信息資源存儲長遠發展問題更為關注。
二、網絡信息資源存儲發展現狀
(一)網絡信息資源存儲國際現狀
越來越多的國家和人力參與并投入到網絡信息資源存儲的活動中來。關于網絡信息資源存儲的項目也越來越多,項目數量呈穩定增長趨勢。國際互聯網保存聯盟(IIPC)的機構成員在2003年成立的時候只有12個,到2009年3月已經發展到38個,它們主要分布在歐洲、北美洲、亞洲。2008年IIPC對其成員進行問卷調查顯示:該組織的成員50%是國家圖書館,10%是高校圖書館,8%是其他類型圖書館,3%是國家檔案館,3%是內容提供商,26%是研究機構、政府組織等。由此可見,圖書館特別是國家圖書館已經成為WA活動參與的主力,并擔任了重要的角色。網絡信息資源存儲仍然以實驗和項目形式為主。在其發展初期,項目都是以小規模的Web資源采集的探索性實驗為主,在積累了一定的經驗后開始進行實際的可行的部署和應用,而目前很多國家和區域已經建立戰略合成關系投資網絡信息資源保存體系。IIPC對38家成員館2008年的網絡信息資源存儲研究狀態分析顯示:以項目形式開展研究的有6家(15%)、以實驗形式開展研究的有7家(18%)、可運作但仍處于實驗階段的有11家(29%)、完全投入應用的有5家(15%)、商業應用的有4家(10%)、其他形式的有5家(13%)。網絡信息資源的采集方式和策略呈多樣化發展,采集的內容也越來越廣泛?,F有的Web資源的采集方式已經有了很大的改變,已經擺脫了曾經的單一Web資源一次采集?,F在的主要采集方式有Web資源二次采集、數據庫采集(深層網采集)和事務型采集等多種方式。采集策略也有了很大程度的豐富,現在的采集策略主要有混合策略、復雜域、大規模采集。采集內容也覆蓋了人類社會的方方面面,例如政治、經濟、健康、藝術、人文等方面。網絡信息資源存儲的系統技術和標準框架已日趨成熟。
網絡信息資源存儲的系統技術中包括了攝取(Ingest)、存儲(Storage)、訪問(Access)和索引與檢索(Index&Search)四大部分,并IIPC也圍繞其核心功能為其開發了一套完整的工具。IIPC技術委員會下設的四個子委員會負責對WA的攝取、保存、訪問、索引與檢索進行深入的研究和實踐工作。除了技術以外,對WA其相關的標準規范也投入了許多的研究。目前所涉及的標準規范主要有:獲取階段的存檔資源標識、統一資源命名等數據唯一標識,多任務并發管理協議(HIP)、蜘蛛協議(Robertprotocol);存儲階段的存檔文件格式、Web存檔文件格式,保存元數據實施策略、元數據編碼與傳輸標準(簡稱METS)等。此外WA領域中對于協作共享也非常的注重,WA在系統開發的初始階段就十分關注系統的互操作,通過建立一個開放的模塊化系統框架和進行功能模塊化開發,實現系統的開放性、協作性、互操作性。IIPC提出了WA系統體系框架并開發了一系列的開源軟件。WA系統和工具得到不斷的開發與更新。且目前WA領域的大多數軟件都是開源的,可以免費下載使用。現在在使用的工具主要有:PANDAS,澳大利亞PANDORA項目開發的基于采集的數字化存檔系統,為國內參與合作的各個州立圖書館構建了合作者分布式使用的功能;WAS,美國WebAtRisk項目構建的基于Web的分布式倉儲構建、存儲和管理工具;Heritrix、Nutch2WAX、WERA,是有IIPC資助開發的系列軟件;Wayback是目前WA領域使用率最高的訪問工具;WCT是一種由NWA與IIPC合作開發的應用率較高的保存工具。此外還有其他的一些比較著名的工具。WA領域的工具、系統有趨同的發展趨勢。幾家具有較強技術實力的機構開始合作開發和完善現有的軟件和工具。
目前,IIPC與合作機構正在研發新一代智能爬蟲(SmartCrawler)以提高爬蟲自動采集的效率。WA相關法律體制得到加強和完善。雖然目前有許多國家隊圖書等出版物制定了相關的法律法規,有的國家也對相關的電子出版物有了明確的法律規定,但是都沒有明確的將Web信息資源納入到呈繳法。目前許多沒有制定Web資源呈繳法律的國家,也采取了各種方式積極的完善與WA相關的法律,例如版權聲明,這時目前使用較多的方式之一。此外還有采集前征求出版者許可、允許出版者提出剔除請求和混合型的解決方案。由于WA項目的投資數額巨大,相關的成本分析與風險管理已經越來越受到重視。WA對存儲設備、技術等軟硬件的要求都很高,同時其花費的時間周期也十分的長。因此需要投入的資金也越來越多,且有逐年上升的趨勢。例如荷蘭國家圖書館2005年的資金投入接近于2004年的3倍,2006-2009的預算也明顯增加。為了使WA項目能夠獲得穩定的資金,許多國家已經將WA項目的資金納入了國家圖書館的業務開支。為了能夠使WA的研究項目能夠順利的進行,已經開設對其費用成本及風險管理進行研究。目前主要的是采用NASA用于研究太空、地球數據保存的費用估計工具CET,但還沒有建立其特有的成本費用模型。合作范圍越來越廣,合作機制也逐步得到加強。WA項目是一個綜合性的、龐大的項目,單靠某一個組織的力量是無法完成的。目前國際上的主要的WA項目都是由多個機構合作完成的,合作已成為WA發展的趨勢。合作范圍也從國家內部、組織間的合作發展到了地區合作,再到國際合作。從其合作機制來看主要分為:高度集中機制、責任平等機制、高度分散機制和獨立工作機制。
(二)國內發展現狀
我國WA的研究始于20世紀末。對于WA比較系統的理論研究主要集中在中國科學院國家科學圖書館和少數其他單位。國家科學圖書館一直以來關注數字資源長期保存的宏觀支撐機制和問題框架的研究,目前正在進行的國家社會科學基金項目“網絡信息資源保存的理論與方法研究”,對WA的理論、技術予以探索研究。國家圖書館和高校的一些研究人員對元數據方案、服務模式、WA面臨的問題進行了探討。國家圖書館“網絡信息采集與保存”試驗項目(WICP)采集保存了自2003年以來“.cn”域名下的網站和所有中文(編碼)網站,積累Web數據達150G;對政府網站、電子報刊、國學的Web資源進行鏡像存檔;選擇了2008北京奧運、中國載人航天工程等專題進行專題存檔,并對專題存檔的數據進行質量控制、數據挖掘。國家圖書館已經成為IIPC的成員,并積極推動和促進Web資源呈繳法的起草,以解決WA長遠發展過程中的法律障礙。我國研究人員還積極參與國際交流,國家科技圖書文獻中心(NSTL)與國家科學圖書館于2004年、2007年兩次承辦“數字資源長期保存國際會議”(iPRESS),為國內保存領域的研究人員參與國際長期保存合作,促進長期保存的可持續高水平發展提供了良好的機會
三、網絡信息資源存儲發展趨勢
網絡信息資源存儲發展趨勢主要有以下幾點。主題和內容更加豐富。WA項目所涉及的內容已經基本覆蓋了各個領域,例如政治、社會文化、健康、藝術、人文等。WA采集的形式從傳統的靜態網頁的采集向多媒體動態內容的采集方向轉變,目前也有將Web2.0軟件形式納入采集的意向。但Web2.0資源的保存面臨保存責任者難以界定、隱蔽網采集難度、存儲難度等多方面的挑戰,各種Web2.0的應用模式又各自具備自身的特點及保存中需要考慮的問題。WA的內容管理日益受到重視。系統建設標準化和開源化,WA項目在標準規范方面不斷改進,IIPC致力于WARC標準的推廣及ARC向WARC轉換工作,完善轉化框架和工具開發。WA項目中所使用的采集、索引、訪問工具基本都是開源的,而且在提高開源軟件的效率、性能、規范化方面還在不斷努力和探索。項目工作流程標準化、規范化,隨著WA十余年的發展,項目在工作流程規范化、提高工作效率方面的嘗試和探索越來越多,對WA的采集、法律問題、編目、保存、訪問等環節制定了詳細、規范的流程。
合作范圍更為廣泛。國際WA領域開始構建更大范圍的長期保存網絡合作模式,共享WA系統和資源。利用分布式的系統和資源構成網格和協作網絡,構建異地分布的WA合作框架,以促進實踐中的資源共享、職責與費用分攤以及交流等。其中比較典型的合作項目有NWA基于訪問的合作機制、SDSC基于大規模存儲網格合作機制、PANDORA基于采集合作機制等。WA領域的合作范圍不斷擴大,合作內容不斷深化。利用分布式的系統和資源構建網格和協作網絡,共享WA系統和資源,促進資源共享,實行職責與費用分攤。利用形式越來越多種多樣。例如網站重現將WA存儲器中存儲的網站內容以其原有的樣貌展現給用戶,讓用戶感覺就像是在訪問原始網站一樣;保存Web文獻參考鏈接信息。對搜索引擎結果進行該進;分析Web技術演進。