公務(wù)員期刊網(wǎng) 論文中心 正文

網(wǎng)絡(luò)信息資源電子技術(shù)論文

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了網(wǎng)絡(luò)信息資源電子技術(shù)論文范文,希望能給你帶來靈感和參考,敬請閱讀。

網(wǎng)絡(luò)信息資源電子技術(shù)論文

一、網(wǎng)絡(luò)信息資源存儲發(fā)展歷程

1996年InternetArchive的成立拉開了網(wǎng)絡(luò)信息資源存儲的研究和實踐的序幕。雖只有十幾年的發(fā)展歷程,但是其技術(shù)卻有了長足的發(fā)展。規(guī)模從最初的百萬數(shù)據(jù)到現(xiàn)在的數(shù)十億的URL采集,項目的自己投入越來越多,項目的難度也越來越高。從1996年到1999年間,首先InternetArchive的成立,然后歐美各國紛紛開始網(wǎng)絡(luò)信息資源存儲項目的實驗。在1996年,澳大利亞國家圖書館發(fā)起PANDORA項目,其目的在于保存澳大利亞的在線出版物,包括社會科學(xué)、政治、經(jīng)濟、宗教、自然科學(xué)、文化等重要文獻(xiàn)資產(chǎn)。同時澳大利亞國家圖書館還領(lǐng)導(dǎo)了另一個重要的項目——是關(guān)于數(shù)字資源保存主題的門戶網(wǎng)站PADI,其目的是為了提供一種機制,幫助確保數(shù)據(jù)格式信息能夠被有效管理、保存和提供未來訪問。1997年北歐圖書館了開啟了NWA項目,該項目借鑒了Kulturarw3的Web信息資源采集項目的經(jīng)驗,其目的是根據(jù)在網(wǎng)絡(luò)中進行保存、訪問等操作的要求而制定出相關(guān)的技術(shù)規(guī)格,協(xié)助國家項目的協(xié)調(diào)發(fā)展,聯(lián)合北歐各國圖書館建立歐洲網(wǎng)絡(luò)資源長期保存的合作機制。1997年在美國還開展了項目,該項目是美國國會圖書館負(fù)責(zé)的。其目的是為有關(guān)Web信息的數(shù)字化、元數(shù)據(jù)、選擇和采集、長期保存與獲取方面的實際問題提供試驗,從而為美國國會圖書館運行一個大規(guī)模的Web信息保存項目提供指導(dǎo)和經(jīng)驗。以上介紹的屬于網(wǎng)絡(luò)信息資源存儲的初始起步的實驗階段,主要目的都是為以后的項目提供各種借鑒經(jīng)驗。從2000開始到2005年時網(wǎng)絡(luò)信息資源存儲的實際應(yīng)用部署階段。該階段歐美各主要國家已經(jīng)開始對網(wǎng)絡(luò)信息資源存儲高度重視,并已經(jīng)開設(shè)從國家層面進行思考和作戰(zhàn)略計劃。因此該階段具有以下幾個特點:

(1)以國家或區(qū)域為單位的戰(zhàn)略合作保存體系發(fā)展迅速

(2)網(wǎng)絡(luò)信息資源存儲項目研究的內(nèi)容和深度得到極大的擴展

(3)國際機構(gòu)與會議更加關(guān)注網(wǎng)絡(luò)信息資源存儲

(4)網(wǎng)絡(luò)信息資源存儲系統(tǒng)越來越受到重視,其發(fā)展和應(yīng)用也越來越廣泛

2000年年美國國會圖書館提出了“國家數(shù)字信息基礎(chǔ)設(shè)施及保存計劃”,其中包括立即收集和保存可能瞬間即逝的Web數(shù)字信息。2001年挪威國家圖書館開始實施Paradigma項目,英國國家圖書館啟動試驗性項目DomainUK。2002年第68屆IFLA理事會對以往國家層面網(wǎng)絡(luò)信息資源采集(如NWA)的經(jīng)驗予以總結(jié),探討網(wǎng)絡(luò)信息資源保存的法律問題。2003年六月,由來自多個國家的12個成員機構(gòu)組成的國家網(wǎng)絡(luò)保存聯(lián)盟正式成立。自2005年以后,網(wǎng)絡(luò)信息資源存儲技術(shù)進入了長遠(yuǎn)發(fā)展階段。在網(wǎng)絡(luò)信息資源存儲相關(guān)項目的實驗研究、應(yīng)用部署發(fā)展的基礎(chǔ)上,相關(guān)的組織機構(gòu)相關(guān)的組織機構(gòu)、項目對如何更好的將Web資源呈現(xiàn)給用戶,提供檢索服務(wù),并進行相應(yīng)的數(shù)據(jù)挖掘以用于學(xué)術(shù)研究、追蹤動態(tài)等網(wǎng)絡(luò)信息資源存儲長遠(yuǎn)發(fā)展問題更為關(guān)注。

二、網(wǎng)絡(luò)信息資源存儲發(fā)展現(xiàn)狀

(一)網(wǎng)絡(luò)信息資源存儲國際現(xiàn)狀

越來越多的國家和人力參與并投入到網(wǎng)絡(luò)信息資源存儲的活動中來。關(guān)于網(wǎng)絡(luò)信息資源存儲的項目也越來越多,項目數(shù)量呈穩(wěn)定增長趨勢。國際互聯(lián)網(wǎng)保存聯(lián)盟(IIPC)的機構(gòu)成員在2003年成立的時候只有12個,到2009年3月已經(jīng)發(fā)展到38個,它們主要分布在歐洲、北美洲、亞洲。2008年IIPC對其成員進行問卷調(diào)查顯示:該組織的成員50%是國家圖書館,10%是高校圖書館,8%是其他類型圖書館,3%是國家檔案館,3%是內(nèi)容提供商,26%是研究機構(gòu)、政府組織等。由此可見,圖書館特別是國家圖書館已經(jīng)成為WA活動參與的主力,并擔(dān)任了重要的角色。網(wǎng)絡(luò)信息資源存儲仍然以實驗和項目形式為主。在其發(fā)展初期,項目都是以小規(guī)模的Web資源采集的探索性實驗為主,在積累了一定的經(jīng)驗后開始進行實際的可行的部署和應(yīng)用,而目前很多國家和區(qū)域已經(jīng)建立戰(zhàn)略合成關(guān)系投資網(wǎng)絡(luò)信息資源保存體系。IIPC對38家成員館2008年的網(wǎng)絡(luò)信息資源存儲研究狀態(tài)分析顯示:以項目形式開展研究的有6家(15%)、以實驗形式開展研究的有7家(18%)、可運作但仍處于實驗階段的有11家(29%)、完全投入應(yīng)用的有5家(15%)、商業(yè)應(yīng)用的有4家(10%)、其他形式的有5家(13%)。網(wǎng)絡(luò)信息資源的采集方式和策略呈多樣化發(fā)展,采集的內(nèi)容也越來越廣泛?,F(xiàn)有的Web資源的采集方式已經(jīng)有了很大的改變,已經(jīng)擺脫了曾經(jīng)的單一Web資源一次采集?,F(xiàn)在的主要采集方式有Web資源二次采集、數(shù)據(jù)庫采集(深層網(wǎng)采集)和事務(wù)型采集等多種方式。采集策略也有了很大程度的豐富,現(xiàn)在的采集策略主要有混合策略、復(fù)雜域、大規(guī)模采集。采集內(nèi)容也覆蓋了人類社會的方方面面,例如政治、經(jīng)濟、健康、藝術(shù)、人文等方面。網(wǎng)絡(luò)信息資源存儲的系統(tǒng)技術(shù)和標(biāo)準(zhǔn)框架已日趨成熟。

網(wǎng)絡(luò)信息資源存儲的系統(tǒng)技術(shù)中包括了攝取(Ingest)、存儲(Storage)、訪問(Access)和索引與檢索(Index&Search)四大部分,并IIPC也圍繞其核心功能為其開發(fā)了一套完整的工具。IIPC技術(shù)委員會下設(shè)的四個子委員會負(fù)責(zé)對WA的攝取、保存、訪問、索引與檢索進行深入的研究和實踐工作。除了技術(shù)以外,對WA其相關(guān)的標(biāo)準(zhǔn)規(guī)范也投入了許多的研究。目前所涉及的標(biāo)準(zhǔn)規(guī)范主要有:獲取階段的存檔資源標(biāo)識、統(tǒng)一資源命名等數(shù)據(jù)唯一標(biāo)識,多任務(wù)并發(fā)管理協(xié)議(HIP)、蜘蛛?yún)f(xié)議(Robertprotocol);存儲階段的存檔文件格式、Web存檔文件格式,保存元數(shù)據(jù)實施策略、元數(shù)據(jù)編碼與傳輸標(biāo)準(zhǔn)(簡稱METS)等。此外WA領(lǐng)域中對于協(xié)作共享也非常的注重,WA在系統(tǒng)開發(fā)的初始階段就十分關(guān)注系統(tǒng)的互操作,通過建立一個開放的模塊化系統(tǒng)框架和進行功能模塊化開發(fā),實現(xiàn)系統(tǒng)的開放性、協(xié)作性、互操作性。IIPC提出了WA系統(tǒng)體系框架并開發(fā)了一系列的開源軟件。WA系統(tǒng)和工具得到不斷的開發(fā)與更新。且目前WA領(lǐng)域的大多數(shù)軟件都是開源的,可以免費下載使用?,F(xiàn)在在使用的工具主要有:PANDAS,澳大利亞PANDORA項目開發(fā)的基于采集的數(shù)字化存檔系統(tǒng),為國內(nèi)參與合作的各個州立圖書館構(gòu)建了合作者分布式使用的功能;WAS,美國WebAtRisk項目構(gòu)建的基于Web的分布式倉儲構(gòu)建、存儲和管理工具;Heritrix、Nutch2WAX、WERA,是有IIPC資助開發(fā)的系列軟件;Wayback是目前WA領(lǐng)域使用率最高的訪問工具;WCT是一種由NWA與IIPC合作開發(fā)的應(yīng)用率較高的保存工具。此外還有其他的一些比較著名的工具。WA領(lǐng)域的工具、系統(tǒng)有趨同的發(fā)展趨勢。幾家具有較強技術(shù)實力的機構(gòu)開始合作開發(fā)和完善現(xiàn)有的軟件和工具。

目前,IIPC與合作機構(gòu)正在研發(fā)新一代智能爬蟲(SmartCrawler)以提高爬蟲自動采集的效率。WA相關(guān)法律體制得到加強和完善。雖然目前有許多國家隊圖書等出版物制定了相關(guān)的法律法規(guī),有的國家也對相關(guān)的電子出版物有了明確的法律規(guī)定,但是都沒有明確的將Web信息資源納入到呈繳法。目前許多沒有制定Web資源呈繳法律的國家,也采取了各種方式積極的完善與WA相關(guān)的法律,例如版權(quán)聲明,這時目前使用較多的方式之一。此外還有采集前征求出版者許可、允許出版者提出剔除請求和混合型的解決方案。由于WA項目的投資數(shù)額巨大,相關(guān)的成本分析與風(fēng)險管理已經(jīng)越來越受到重視。WA對存儲設(shè)備、技術(shù)等軟硬件的要求都很高,同時其花費的時間周期也十分的長。因此需要投入的資金也越來越多,且有逐年上升的趨勢。例如荷蘭國家圖書館2005年的資金投入接近于2004年的3倍,2006-2009的預(yù)算也明顯增加。為了使WA項目能夠獲得穩(wěn)定的資金,許多國家已經(jīng)將WA項目的資金納入了國家圖書館的業(yè)務(wù)開支。為了能夠使WA的研究項目能夠順利的進行,已經(jīng)開設(shè)對其費用成本及風(fēng)險管理進行研究。目前主要的是采用NASA用于研究太空、地球數(shù)據(jù)保存的費用估計工具CET,但還沒有建立其特有的成本費用模型。合作范圍越來越廣,合作機制也逐步得到加強。WA項目是一個綜合性的、龐大的項目,單靠某一個組織的力量是無法完成的。目前國際上的主要的WA項目都是由多個機構(gòu)合作完成的,合作已成為WA發(fā)展的趨勢。合作范圍也從國家內(nèi)部、組織間的合作發(fā)展到了地區(qū)合作,再到國際合作。從其合作機制來看主要分為:高度集中機制、責(zé)任平等機制、高度分散機制和獨立工作機制。

(二)國內(nèi)發(fā)展現(xiàn)狀

我國WA的研究始于20世紀(jì)末。對于WA比較系統(tǒng)的理論研究主要集中在中國科學(xué)院國家科學(xué)圖書館和少數(shù)其他單位。國家科學(xué)圖書館一直以來關(guān)注數(shù)字資源長期保存的宏觀支撐機制和問題框架的研究,目前正在進行的國家社會科學(xué)基金項目“網(wǎng)絡(luò)信息資源保存的理論與方法研究”,對WA的理論、技術(shù)予以探索研究。國家圖書館和高校的一些研究人員對元數(shù)據(jù)方案、服務(wù)模式、WA面臨的問題進行了探討。國家圖書館“網(wǎng)絡(luò)信息采集與保存”試驗項目(WICP)采集保存了自2003年以來“.cn”域名下的網(wǎng)站和所有中文(編碼)網(wǎng)站,積累Web數(shù)據(jù)達(dá)150G;對政府網(wǎng)站、電子報刊、國學(xué)的Web資源進行鏡像存檔;選擇了2008北京奧運、中國載人航天工程等專題進行專題存檔,并對專題存檔的數(shù)據(jù)進行質(zhì)量控制、數(shù)據(jù)挖掘。國家圖書館已經(jīng)成為IIPC的成員,并積極推動和促進Web資源呈繳法的起草,以解決WA長遠(yuǎn)發(fā)展過程中的法律障礙。我國研究人員還積極參與國際交流,國家科技圖書文獻(xiàn)中心(NSTL)與國家科學(xué)圖書館于2004年、2007年兩次承辦“數(shù)字資源長期保存國際會議”(iPRESS),為國內(nèi)保存領(lǐng)域的研究人員參與國際長期保存合作,促進長期保存的可持續(xù)高水平發(fā)展提供了良好的機會

三、網(wǎng)絡(luò)信息資源存儲發(fā)展趨勢

網(wǎng)絡(luò)信息資源存儲發(fā)展趨勢主要有以下幾點。主題和內(nèi)容更加豐富。WA項目所涉及的內(nèi)容已經(jīng)基本覆蓋了各個領(lǐng)域,例如政治、社會文化、健康、藝術(shù)、人文等。WA采集的形式從傳統(tǒng)的靜態(tài)網(wǎng)頁的采集向多媒體動態(tài)內(nèi)容的采集方向轉(zhuǎn)變,目前也有將Web2.0軟件形式納入采集的意向。但Web2.0資源的保存面臨保存責(zé)任者難以界定、隱蔽網(wǎng)采集難度、存儲難度等多方面的挑戰(zhàn),各種Web2.0的應(yīng)用模式又各自具備自身的特點及保存中需要考慮的問題。WA的內(nèi)容管理日益受到重視。系統(tǒng)建設(shè)標(biāo)準(zhǔn)化和開源化,WA項目在標(biāo)準(zhǔn)規(guī)范方面不斷改進,IIPC致力于WARC標(biāo)準(zhǔn)的推廣及ARC向WARC轉(zhuǎn)換工作,完善轉(zhuǎn)化框架和工具開發(fā)。WA項目中所使用的采集、索引、訪問工具基本都是開源的,而且在提高開源軟件的效率、性能、規(guī)范化方面還在不斷努力和探索。項目工作流程標(biāo)準(zhǔn)化、規(guī)范化,隨著WA十余年的發(fā)展,項目在工作流程規(guī)范化、提高工作效率方面的嘗試和探索越來越多,對WA的采集、法律問題、編目、保存、訪問等環(huán)節(jié)制定了詳細(xì)、規(guī)范的流程。

合作范圍更為廣泛。國際WA領(lǐng)域開始構(gòu)建更大范圍的長期保存網(wǎng)絡(luò)合作模式,共享WA系統(tǒng)和資源。利用分布式的系統(tǒng)和資源構(gòu)成網(wǎng)格和協(xié)作網(wǎng)絡(luò),構(gòu)建異地分布的WA合作框架,以促進實踐中的資源共享、職責(zé)與費用分?jǐn)傄约敖涣鞯?。其中比較典型的合作項目有NWA基于訪問的合作機制、SDSC基于大規(guī)模存儲網(wǎng)格合作機制、PANDORA基于采集合作機制等。WA領(lǐng)域的合作范圍不斷擴大,合作內(nèi)容不斷深化。利用分布式的系統(tǒng)和資源構(gòu)建網(wǎng)格和協(xié)作網(wǎng)絡(luò),共享WA系統(tǒng)和資源,促進資源共享,實行職責(zé)與費用分?jǐn)?。利用形式越來越多種多樣。例如網(wǎng)站重現(xiàn)將WA存儲器中存儲的網(wǎng)站內(nèi)容以其原有的樣貌展現(xiàn)給用戶,讓用戶感覺就像是在訪問原始網(wǎng)站一樣;保存Web文獻(xiàn)參考鏈接信息。對搜索引擎結(jié)果進行該進;分析Web技術(shù)演進。