公務(wù)員期刊網(wǎng) 論文中心 正文

談電子文件格式可持續(xù)性風(fēng)險(xiǎn)評(píng)估

前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了談電子文件格式可持續(xù)性風(fēng)險(xiǎn)評(píng)估范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

談電子文件格式可持續(xù)性風(fēng)險(xiǎn)評(píng)估

摘要:格式可持續(xù)性是確保電子文件永久保存和長(zhǎng)期可讀的關(guān)鍵因素。本文介紹了國(guó)外典型的文件格式風(fēng)險(xiǎn)評(píng)估項(xiàng)目,總結(jié)了評(píng)價(jià)電子文件格式可持續(xù)性的7個(gè)關(guān)鍵指標(biāo),包括開(kāi)放性、采納程度、自描述性、穩(wěn)定性、外部依賴(lài)性、技術(shù)保護(hù)機(jī)制、版權(quán)和專(zhuān)利,并對(duì)這些指標(biāo)做出了說(shuō)明。

關(guān)鍵詞:電子文件;風(fēng)險(xiǎn)評(píng)估;可持續(xù)性;格式評(píng)價(jià)

文件格式是數(shù)字資源最重要的屬性,決定著數(shù)字資源的可用性。在電子文件管理的很多階段(如選擇、獲取、保存和訪(fǎng)問(wèn)等)都需要考慮文件格式問(wèn)題[1]。文件格式可以形象地看成是一種“翻譯語(yǔ)言”,它將數(shù)字資源存于載體上的二進(jìn)制代碼“翻譯”成用戶(hù)可識(shí)讀、理解的文件內(nèi)容。同樣的文件內(nèi)容,不同的“翻譯語(yǔ)言”(文件格式)轉(zhuǎn)換出的二進(jìn)制代碼完全不同。檔案館面對(duì)的文件格式種類(lèi)越多,面臨的可讀性風(fēng)險(xiǎn)越大。正確選擇文件格式,事關(guān)電子文件的安全保管。對(duì)電子文件格式的可持續(xù)性進(jìn)行風(fēng)險(xiǎn)評(píng)估,有助于檔案館遴選出適合長(zhǎng)期保存的文件格式。

1國(guó)外典型的文件格式風(fēng)險(xiǎn)評(píng)估項(xiàng)目

1.1互聯(lián)網(wǎng)長(zhǎng)期保存項(xiàng)目

該項(xiàng)目由丹麥國(guó)家與大學(xué)圖書(shū)館和皇家圖書(shū)館合作開(kāi)展,主要通過(guò)管控?cái)?shù)字格式達(dá)到長(zhǎng)期保存數(shù)字資源的目的,確保在50年或100年后仍可讀取和理解數(shù)字對(duì)象。2004年5月,兩家圖書(shū)館聯(lián)合《文件格式對(duì)策》(HandlingFileFormats)[2]報(bào)告。該報(bào)告針對(duì)檔案數(shù)字格式需求展開(kāi),指出適合長(zhǎng)期保存的文件格式需要具有可讀性、原始外觀(guān)、要素完整、功能完備和保持操控性能等關(guān)鍵屬性。報(bào)告還重點(diǎn)闡述了評(píng)價(jià)文件格式未來(lái)可用性的幾個(gè)標(biāo)準(zhǔn),包括開(kāi)放性、可移植性、性能指標(biāo)、退化程度等,并進(jìn)一步指出了影響文件格式可持續(xù)性的重要因素,據(jù)此提出了電子文件長(zhǎng)期保存的策略。

1.2數(shù)字格式的可持續(xù)性分析

為實(shí)施數(shù)字館藏計(jì)劃,美國(guó)國(guó)會(huì)圖書(shū)館(LibraryofCongress)開(kāi)展了有關(guān)數(shù)字格式可持續(xù)的研究項(xiàng)目,研究具體內(nèi)容包括:數(shù)字文件格式的戰(zhàn)略規(guī)劃;具有長(zhǎng)期可持續(xù)性的文件格式選擇;長(zhǎng)期可持續(xù)性格式的維護(hù)策略;存在格式風(fēng)險(xiǎn)的文件管理對(duì)策及其內(nèi)容保護(hù)[3]。該項(xiàng)目研究成果在《數(shù)字格式:可持續(xù)性、性能和質(zhì)量因素》(DigitalFormats:FactorsforSustainability,Functionality,andQuality)報(bào)告中,報(bào)告重點(diǎn)闡述了確定某種數(shù)字文件格式是否具有可持續(xù)性抑或存在風(fēng)險(xiǎn)的方法,指出影響?zhàn)^藏文件格式可持續(xù)性的因素分兩類(lèi):一類(lèi)是影響所有數(shù)字格式可持續(xù)性的基本因素;另一類(lèi)是針對(duì)某類(lèi)數(shù)字資源質(zhì)量或性能的特殊因素。前者包括開(kāi)放性、采用程度、透明度、自描述、外部依賴(lài)關(guān)系、專(zhuān)利影響和技術(shù)保護(hù)機(jī)制,這些因素涉及所有類(lèi)別的數(shù)字格式;后者主要針對(duì)靜止圖像、聲音、文本文件和視頻文件格式等類(lèi)別。以靜止圖像格式為例,有關(guān)其質(zhì)量或性能的特殊因素包括渲染能力、清晰度、色彩方案、排版以及是否支持圖形效果等。美國(guó)國(guó)會(huì)圖書(shū)館還通過(guò)其官方網(wǎng)站了具備(或不具備)長(zhǎng)期可持續(xù)性的數(shù)字文件格式,并作出解釋說(shuō)明。同時(shí),還了保管這些格式資源的對(duì)策。

1.3文件格式風(fēng)險(xiǎn)量化評(píng)估

荷蘭國(guó)家圖書(shū)館從電子文件長(zhǎng)期保存這一目標(biāo)出發(fā),采取風(fēng)險(xiǎn)評(píng)估的方式對(duì)文件格式的可持續(xù)性進(jìn)行研究,于2008年開(kāi)發(fā)出可量化的文件格式風(fēng)險(xiǎn)評(píng)估方法[4]。該方法包含了衡量文件格式可持續(xù)性的7個(gè)指標(biāo),分別為開(kāi)放性、采用性、復(fù)雜性、技術(shù)保護(hù)機(jī)制、自我解釋性、穩(wěn)定性、依賴(lài)性,每一個(gè)指標(biāo)下再分解出若干個(gè)可應(yīng)用于所有文件格式的特性。所有指標(biāo)和特性均被賦予分值,分配給每個(gè)指標(biāo)的分值范圍是0—7、每個(gè)特性的分值范圍是0—2。對(duì)數(shù)字保存和長(zhǎng)期利用構(gòu)成威脅的特征值將被賦予低的分?jǐn)?shù)值,而對(duì)數(shù)字保存和長(zhǎng)期可用具有重要作用的特征值會(huì)獲得高分?jǐn)?shù)值。將這種定量評(píng)估方法具體應(yīng)用于某種格式,可以計(jì)算出該格式的總分,總分越高,格式越適合長(zhǎng)期保存。當(dāng)然,每種格式的評(píng)分會(huì)隨時(shí)間推移發(fā)生變化。

1.4風(fēng)險(xiǎn)和優(yōu)選格式模板

美國(guó)國(guó)家檔案與文件署(NARA)早年間接收了大量來(lái)自白宮、各聯(lián)邦機(jī)構(gòu)、國(guó)會(huì)的永久性電子檔案。為化解風(fēng)險(xiǎn),并對(duì)其原生電子檔案的格式狀況進(jìn)行評(píng)判,NARA于2014年創(chuàng)建了一個(gè)量化的可用格式模板[5]。該模板用于評(píng)估移交至NARA的文件格式的適用性,包含37個(gè)評(píng)估項(xiàng),這些評(píng)估項(xiàng)按照公開(kāi)程度、采用程度/流行性、透明度、自描述、外部依賴(lài)性、許可和專(zhuān)利、使用加密/權(quán)限管理七大類(lèi)排列,每個(gè)類(lèi)別及其評(píng)估項(xiàng)的權(quán)重各不相同。與上述美國(guó)國(guó)會(huì)圖書(shū)館提供的數(shù)字格式可持續(xù)性分析項(xiàng)目相比,NARA的模板引入了權(quán)重概念,并且更具針對(duì)性,其評(píng)估指標(biāo)中加入了該格式文件的進(jìn)館時(shí)間、占館藏電子檔案總量的百分比、格式已流行年數(shù)、格式更新情況、格式轉(zhuǎn)換時(shí)的內(nèi)在風(fēng)險(xiǎn)等指標(biāo)。因此,NARA的模板已被編制檔案移交指南的團(tuán)隊(duì)所采用,在NARA的移交指南中,所有擬進(jìn)館永久保存的格式基于上述評(píng)估而被分別標(biāo)注為“首選格式”或“可接受格式”。而對(duì)所有已進(jìn)館電子檔案,則根據(jù)評(píng)估狀況區(qū)分為2種高風(fēng)險(xiǎn)、26種中等風(fēng)險(xiǎn)和42種低風(fēng)險(xiǎn)格式。

1.5數(shù)字連續(xù)性項(xiàng)目

英國(guó)國(guó)家檔案館開(kāi)展的數(shù)字連續(xù)性項(xiàng)目旨在從可持續(xù)性的角度去評(píng)價(jià)文件格式[6]。該項(xiàng)目制定了評(píng)價(jià)文件格式的4個(gè)標(biāo)準(zhǔn),即能力方面:業(yè)務(wù)需求得到滿(mǎn)足的程度;質(zhì)量方面:信息存儲(chǔ)的準(zhǔn)確程度,包括精確與損失程度;耐久性方面:時(shí)間對(duì)文件格式的影響程度,包括流行度、穩(wěn)定性、可恢復(fù)性;靈活性方面:格式適應(yīng)不斷變化環(huán)境的能力,包括互操作性(現(xiàn)有軟件可以訪(fǎng)問(wèn)的格式種類(lèi))、可實(shí)現(xiàn)性(編寫(xiě)軟件與格式交互的難易程度)。每個(gè)標(biāo)準(zhǔn)得分范圍在0—5之間,通過(guò)一個(gè)共同的測(cè)量尺度來(lái)評(píng)估、比較不同的格式。如,若需要評(píng)估4種電子文件格式,則制作一個(gè)分?jǐn)?shù)在0—5的表格,再根據(jù)不同的子標(biāo)準(zhǔn)來(lái)評(píng)估文件格式,確定每個(gè)特性的分?jǐn)?shù),用子標(biāo)準(zhǔn)分?jǐn)?shù)的平均值確定最后的分?jǐn)?shù),進(jìn)行比較判斷。以上都是從維護(hù)數(shù)字資源長(zhǎng)久保存的角度出發(fā),對(duì)電子檔案進(jìn)行風(fēng)險(xiǎn)評(píng)價(jià),但各個(gè)項(xiàng)目的評(píng)估角度、指標(biāo)與深度有所不同。綜合來(lái)看,格式風(fēng)險(xiǎn)能夠得到量化將更有助于格式遷移工作的展開(kāi),降低電子文件長(zhǎng)久保管的風(fēng)險(xiǎn)。

2長(zhǎng)期保存的電子文件格式風(fēng)險(xiǎn)評(píng)估指標(biāo)

2.1格式開(kāi)放性

開(kāi)放性指格式使用者可無(wú)障礙地獲取用于創(chuàng)建、維護(hù)和驗(yàn)證該格式文件的工具、技術(shù)規(guī)范及說(shuō)明性文檔。開(kāi)放性包括以下要求:文件的編碼、壓縮、封裝方式等有明確的規(guī)范或標(biāo)準(zhǔn);帶有開(kāi)源的閱讀或創(chuàng)建工具;具有公開(kāi)、完整的技術(shù)說(shuō)明文檔。一種文件格式如果公開(kāi)技術(shù)標(biāo)準(zhǔn),并提供完整的技術(shù)說(shuō)明文檔,意味著未來(lái)對(duì)該格式文件進(jìn)行解讀或重新構(gòu)建的技術(shù)途徑是暢通的。而如果能提供開(kāi)源代碼的讀寫(xiě)軟件,今后遷移、維護(hù)該格式文件的成本就要低很多。

2.2格式采納程度

采納程度指該文件格式被接受使用的程度。被廣泛采用的格式淘汰的速度相對(duì)較慢,文件格式被廣泛采用主要表現(xiàn)有:存在許多可用產(chǎn)品用于以該格式的創(chuàng)建、操作或內(nèi)容呈現(xiàn);Web瀏覽器或市場(chǎng)領(lǐng)先的內(nèi)容創(chuàng)建工具提供對(duì)該格式的支持;該格式在全球范圍被廣泛使用,該格式在遺產(chǎn)保護(hù)領(lǐng)域(檔案、文博、圖情等需要長(zhǎng)期保管數(shù)字資源的行業(yè))普遍認(rèn)可。

2.3格式自描述性

文件格式的“自我記錄”特征主要指文件中包含的描述性信息的多少,這些描述性信息構(gòu)成“元數(shù)據(jù)”嵌于文件之中。說(shuō)明文件屬性的描述性信息,可以是關(guān)于文件內(nèi)容的,也可以是關(guān)于文件技術(shù)或背景信息的。所有文件格式都內(nèi)嵌部分元數(shù)據(jù),因此均有某種程度的自描述特征,但如果某種格式可以在創(chuàng)建過(guò)程中自動(dòng)包含或借助外部工具人為嵌入更多描述性元數(shù)據(jù),將來(lái)對(duì)其的理解就越到位。

2.4格式穩(wěn)定性

文件格式的穩(wěn)定性體現(xiàn)在兩個(gè)方面:格式升級(jí)的頻度較低和升級(jí)后的格式相對(duì)之前版本變化較小。具有可持續(xù)性的文件格式對(duì)外部技術(shù)環(huán)境的變化有較好的適應(yīng)性,或者說(shuō)對(duì)技術(shù)環(huán)境的變化不太敏感。格式經(jīng)常升級(jí)或版本間變化過(guò)大,兼容性差,將對(duì)文件的長(zhǎng)期可用造成威脅。文件格式的穩(wěn)定性要求該格式的設(shè)計(jì)具有一定的前瞻性,具有跨平臺(tái)性和良好的交互性。

2.5格式外部依賴(lài)性

一個(gè)好的文件格式應(yīng)該做到不依賴(lài)于特定的硬件、不依賴(lài)于特定的操作系統(tǒng)、不依賴(lài)于特定的軟件以及其他外部資源等。格式對(duì)某種特定環(huán)境或外部資源的高度依賴(lài),會(huì)為數(shù)字文件的保存和長(zhǎng)期訪(fǎng)問(wèn)帶來(lái)風(fēng)險(xiǎn)。一旦難以重現(xiàn)其所依賴(lài)的特定環(huán)境,文件內(nèi)容的讀取將變得復(fù)雜,甚至根本無(wú)法讀取。因此只有文件格式保持一定的獨(dú)立性,才不會(huì)處于被動(dòng)境地,失去其可讀性。

2.6格式技術(shù)保護(hù)機(jī)制

技術(shù)保護(hù)機(jī)制是指文件格式中攜帶有某寫(xiě)技術(shù)措施來(lái)管控?cái)?shù)字資源的使用和權(quán)限歸屬。常見(jiàn)的有密碼保護(hù)、復(fù)制打印保護(hù)、數(shù)字簽名和內(nèi)容提取保護(hù)等。這些措施的設(shè)計(jì)雖然起到了維護(hù)形成者權(quán)利的效果,但卻有可能影響檔案機(jī)構(gòu)對(duì)電子文件的有效管理和維護(hù)。事實(shí)上,為有效保存電子文件,檔案部門(mén)在必要時(shí)需要對(duì)文件進(jìn)行格式遷移或規(guī)范化處理,如果某種格式的文件提供了技術(shù)保護(hù)機(jī)制,那么遷移轉(zhuǎn)換過(guò)程將無(wú)法實(shí)施。

2.7格式版權(quán)和專(zhuān)利

格式的版權(quán)和專(zhuān)利將限制檔案機(jī)構(gòu)保存文件內(nèi)容的能力。雖然解碼某種格式的許可證無(wú)需太多成本,甚至是免費(fèi)的,但專(zhuān)利的存在可能會(huì)減緩開(kāi)源編碼、解碼器的開(kāi)發(fā)。

作者:王揚(yáng)揚(yáng) 張照余 單位:蘇州大學(xué)社會(huì)學(xué)院