公務(wù)員期刊網(wǎng) 精選范文 大數(shù)據(jù)時(shí)代的定義與特點(diǎn)范文

大數(shù)據(jù)時(shí)代的定義與特點(diǎn)精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的大數(shù)據(jù)時(shí)代的定義與特點(diǎn)主題范文,僅供參考,歡迎閱讀并收藏。

大數(shù)據(jù)時(shí)代的定義與特點(diǎn)

第1篇:大數(shù)據(jù)時(shí)代的定義與特點(diǎn)范文

關(guān)于大數(shù)據(jù),就目前而言仍然沒(méi)有一個(gè)確切的、大家公認(rèn)的界定,不同機(jī)構(gòu)有不同定義,麥肯錫的定義:大數(shù)據(jù)是指無(wú)法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具對(duì)其內(nèi)容進(jìn)行采集、存儲(chǔ)、管理和分析的數(shù)據(jù)集合。維基百科定義:大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營(yíng)決策目的的資訊。無(wú)論哪種定義,我們可以看出大數(shù)據(jù)并不是一種新的產(chǎn)品也不是一種新的技術(shù),只是數(shù)字化時(shí)代出現(xiàn)的一種現(xiàn)象。大數(shù)據(jù)意味著包括交易和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,其規(guī)模或復(fù)雜程度超出了常用技術(shù),按照合理的成本和時(shí)限捕捉、管理及處理這些數(shù)據(jù)集的能力。大數(shù)據(jù)時(shí)代的數(shù)據(jù)存在著多源異構(gòu)、分布廣泛、動(dòng)態(tài)增長(zhǎng)、先有數(shù)據(jù)后有模式等特點(diǎn)。人們正被數(shù)據(jù)洪流所包圍,在大數(shù)據(jù)時(shí)代,正確利用大數(shù)據(jù)給人們的生活帶來(lái)了極大的便利,同樣使得大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理面臨著新的挑戰(zhàn)。在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)的價(jià)值利用以及大數(shù)據(jù)技術(shù)的運(yùn)用在各行各業(yè)都逐漸得以充分的體現(xiàn),在高校中,大數(shù)據(jù)和數(shù)據(jù)分析的價(jià)值更是可以充分體現(xiàn),高校的大學(xué)生思想政治教育工作已經(jīng)具備了大數(shù)據(jù)的特征。如:大學(xué)生每天使用的交流網(wǎng)絡(luò)平臺(tái),每天都會(huì)產(chǎn)生由文字、照片、視頻、對(duì)話等構(gòu)成的海量信息。

二、大學(xué)生思想政治教育有效性內(nèi)涵理解

大學(xué)生思想政治教育是一個(gè)系統(tǒng)工程,任何一個(gè)層面的問(wèn)題可能都不是表面所呈現(xiàn)的那樣僅僅屬于該層面,很可能與更深層的問(wèn)題相關(guān)聯(lián)。大學(xué)生思想政治教育面對(duì)現(xiàn)代化、市場(chǎng)化。全球化與和諧社會(huì)建設(shè)的嶄新境遇,直接表現(xiàn)就是思想政治教育有效性的弱化。何為“有效性”?“有效”是指能“能實(shí)現(xiàn)預(yù)期目標(biāo)”。作為一種價(jià)值屬性的體現(xiàn),有效性是指特定實(shí)踐活動(dòng)及其結(jié)果在相應(yīng)價(jià)值關(guān)系中所表現(xiàn)出來(lái)的相應(yīng)功能或功效。那么什么是“大學(xué)生思想政治教育有效性”?縱觀思想政治教育理論和實(shí)際工作者孜孜以求的探索,大學(xué)生思想政治教育有效性的本質(zhì)體現(xiàn)的是大學(xué)生思想政治教育這一實(shí)踐活動(dòng)本身及其結(jié)果所具有滿足主體需求的功能屬性,即全面提高大學(xué)生思想政治素質(zhì)的功能屬性[1]。

三、大數(shù)據(jù)時(shí)代下大學(xué)生思想政治教育有效性提升的路徑

首先樹(shù)立大學(xué)生思想政治教育大數(shù)據(jù)觀念

第2篇:大數(shù)據(jù)時(shí)代的定義與特點(diǎn)范文

(遼寧師范大學(xué)檔案館,遼寧 大連 116029)

【摘要】本文在深刻解讀大數(shù)內(nèi)涵的基礎(chǔ)上,結(jié)合高校檔案信息資源特點(diǎn),分析大數(shù)據(jù)對(duì)高校檔案工作者理念、檔案資源建設(shè)、檔案信息安全及檔案利用服務(wù)等方面的影響,提出在大數(shù)據(jù)時(shí)代,高校檔案工作應(yīng)該樹(shù)立全歸檔意識(shí)、構(gòu)建檔案信息資源數(shù)據(jù)集、建設(shè)檔案信息安全體系、挖掘檔案信息大資源,推行個(gè)性化定制化檔案信息服務(wù)等應(yīng)對(duì)策略。

關(guān)鍵詞 大數(shù)據(jù);高校檔案;影響分析;對(duì)策研究

基金項(xiàng)目:本文為2014年度遼寧省檔案局科技項(xiàng)目“大數(shù)據(jù)時(shí)代高校檔案信息資源多元采集研究”(L-2014-R-12)的階段性成果之一。

作者簡(jiǎn)介:寧燕子,研究方向?yàn)闄n案信息化建設(shè)。

大數(shù)據(jù)時(shí)代的到來(lái)改變了傳統(tǒng)的IT架構(gòu)與數(shù)據(jù)存儲(chǔ)和利用機(jī)構(gòu),必然也將對(duì)作為儲(chǔ)存信息知識(shí)、提供信息服務(wù)的高校檔案館形成沖擊與挑戰(zhàn)。因此,深刻理解大數(shù)據(jù)的內(nèi)涵,結(jié)合高校檔案信息資源的特點(diǎn),分析大數(shù)據(jù)對(duì)檔案工作者理念的影響、對(duì)檔案信息資源建設(shè)、檔案信息安全及檔案利用服務(wù)的影響,對(duì)高校檔案館面對(duì)大數(shù)據(jù)尋求應(yīng)對(duì)與發(fā)展對(duì)策有著重要意義。

1大數(shù)據(jù)概述

近年來(lái),隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等技術(shù)的深入發(fā)展,以及智能終端、社交網(wǎng)絡(luò)、數(shù)字地球等信息體的普及和建設(shè),海量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)己經(jīng)充斥在人們?nèi)粘I畹拿總€(gè)角落,并且每天還在以驚人的速度進(jìn)行爆炸式的增長(zhǎng)。美國(guó)互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)指出,全球數(shù)據(jù)量已由2005年的0.15ZB增長(zhǎng)到2010年的1.2ZB。預(yù)計(jì)未來(lái)10年,全球數(shù)據(jù)量將以40%+的速度增長(zhǎng),2020年全球數(shù)據(jù)量將達(dá)到35ZB,人類正在逐漸步入一個(gè)大數(shù)據(jù)時(shí)代。

1.1大數(shù)據(jù)定義

目前,大數(shù)據(jù)并沒(méi)有形成一個(gè)統(tǒng)一的定義。研究機(jī)構(gòu)Gartner的定義:大數(shù)據(jù)是指需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。維基百科的定義:大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營(yíng)決策目的的資訊。麥肯錫的定義:大數(shù)據(jù)是指無(wú)法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具對(duì)其內(nèi)容進(jìn)行采集、存儲(chǔ)、管理和分析的數(shù)據(jù)集合。IDC將大數(shù)據(jù)定義為:為更經(jīng)濟(jì)地從高頻率的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價(jià)值而設(shè)計(jì)的新一代架構(gòu)和技術(shù)。信息專家涂子沛在著作《大數(shù)據(jù)》中認(rèn)為:“大數(shù)據(jù)”之“大”,并不僅僅指“容量大”,更大的意義在于通過(guò)對(duì)海量數(shù)據(jù)的交換、整合和分析,發(fā)現(xiàn)新的知識(shí),創(chuàng)造新的價(jià)值,帶來(lái)“大知識(shí)”、“大科技”、“大利潤(rùn)”和“大發(fā)展”。從以上幾種定義,我們可以看出,大數(shù)據(jù)是信息時(shí)代出現(xiàn)的一種現(xiàn)象,一種理念,一種處理技術(shù)。

1.2大數(shù)據(jù)特征

和大數(shù)據(jù)的定義不同,對(duì)大數(shù)據(jù)的特點(diǎn)業(yè)界有比較統(tǒng)一的認(rèn)識(shí)。即大數(shù)據(jù)的4“V”特征。第一,數(shù)據(jù)體量巨大(Volume)。從TB級(jí)別,躍升到PB級(jí)別。物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無(wú)一不是數(shù)據(jù)來(lái)源或者承載的方式。第二,數(shù)據(jù)類型繁多(Variety)。隨著傳感器種類的增多以及智能設(shè)備、社交網(wǎng)絡(luò)等的流行,數(shù)據(jù)類型也變得更加復(fù)雜,不僅包括傳統(tǒng)的關(guān)系數(shù)據(jù)類型,也包括以網(wǎng)頁(yè)、視頻、音頻、E-mail、文檔等形式存在的未加工的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。第三,價(jià)值密度低(Value)。數(shù)據(jù)量呈指數(shù)增長(zhǎng)的同時(shí),隱藏在海量數(shù)據(jù)的有用信息卻沒(méi)有相應(yīng)比例增長(zhǎng),反而使我們獲取有用信息的難度加大。以視頻為例,連續(xù)的監(jiān)控過(guò)程,可能有用的數(shù)據(jù)僅有一兩秒。第四,流動(dòng)速度快(Velocity)。形成流式數(shù)據(jù)是大數(shù)據(jù)的重要特征,數(shù)據(jù)流動(dòng)的速度快到難以用傳統(tǒng)的系統(tǒng)去處理。大數(shù)據(jù)的“4V”特征表明其不僅僅是數(shù)據(jù)海量,對(duì)于大數(shù)據(jù)的分析將更加復(fù)雜、更追求速度、更注重實(shí)效。

2高校檔案信息資源呈現(xiàn)的特點(diǎn)分析

2.1檔案數(shù)量龐大,增長(zhǎng)迅速

遼寧師范大學(xué)是一所省屬重點(diǎn)師范類院校,學(xué)校全日制在校生人數(shù)規(guī)模在22000人左右,在職教職工人數(shù)約為1800人。以遼寧師范大學(xué)為例,學(xué)校檔案館館藏檔案總量是66286卷(件),其中綜合檔案41913卷。近4年,綜合檔案年入館量以平均每年12.5%速度增長(zhǎng)。截至2013年6月21日,全國(guó)普通高等學(xué)校(不含獨(dú)立學(xué)院)共計(jì)2198所。各高校檔案館檔案資源總和近億卷,堪稱海量。2011-2014年,遼寧師范大學(xué)綜合檔案入館數(shù)量統(tǒng)計(jì)結(jié)果見(jiàn)表1。

2.2檔案種類繁多,載體類型多樣

高校檔案是高等院校內(nèi)部組織和個(gè)人在教學(xué)、科研、管理以及其它各項(xiàng)活動(dòng)中直接形成的、對(duì)高校和社會(huì)有保存價(jià)值的文字、圖表、聲像等不同記錄方式和各種載體形態(tài)的歷史記錄。高校檔案具有形成主體多樣性,形成領(lǐng)域廣泛性的特點(diǎn),因此形成了高校檔案信息資源種類繁多、載體記錄方式和載體形態(tài)多樣性的局面。如,遼寧師范大學(xué)檔案館集中統(tǒng)一保管12類檔案:黨群類、行政類、教學(xué)類、科研類、基本建設(shè)類、出版物類、外事類、財(cái)會(huì)類、聲像類、實(shí)物類、教職工人事類和學(xué)生類。高校檔案的載體類型多樣,除傳統(tǒng)的紙張外,還有以感光材料為載體的檔案,如縮微檔案;以磁性材料為載體的檔案,如錄音帶、錄像帶、幻燈片等;以磁、光、電為介質(zhì),通過(guò)計(jì)算機(jī)等設(shè)備閱讀的檔案,如,電子文檔、光盤數(shù)據(jù)庫(kù)等;以數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)為基礎(chǔ),以計(jì)算機(jī)主機(jī)硬盤、光盤為介質(zhì)的檔案,如網(wǎng)絡(luò)信息、網(wǎng)站、網(wǎng)頁(yè)等。

2.3檔案數(shù)據(jù)資源豐富。

近年來(lái),隨著高校校園信息化工作的推進(jìn),高校在檔案信息化工作方面的投入也在不斷加大,數(shù)字檔案館就是檔案信息化的成果之一。檔案信息化的一個(gè)基礎(chǔ)工作是檔案信息資源的數(shù)字化,即館藏檔案目錄數(shù)字化,館藏檔案全文數(shù)字化,電子文檔收集。據(jù)統(tǒng)計(jì)截止2010年10月15日,上海交通大學(xué)檔案館館藏檔案全文數(shù)字化總量為3667404頁(yè),數(shù)字化信息資源約為2PB。一所高校的檔案數(shù)據(jù)資源已經(jīng)達(dá)到PB級(jí)別??上攵?,全國(guó)2000多所高校的檔案數(shù)據(jù)資源總量相當(dāng)可觀,內(nèi)容相當(dāng)豐富。

3大數(shù)據(jù)給高校檔案工作帶來(lái)的影響

3.1大數(shù)據(jù)對(duì)高校檔案工作者理念的影響

大數(shù)據(jù)帶給檔案工作的最大影響是對(duì)檔案工作者思維理念的沖擊。維克托·邁爾·舍恩伯格在《大數(shù)據(jù)時(shí)代》中明確指出,大數(shù)據(jù)時(shí)代最大的轉(zhuǎn)變就是,放棄對(duì)因果關(guān)系的渴求,而取而代之關(guān)注相關(guān)關(guān)系。傳統(tǒng)的邏輯性思維,考慮的是因?yàn)槭裁?,所以必須怎樣,即由因到果的關(guān)系。而大數(shù)據(jù)思維只需要知道“是什么”,而不需要知道“為什么”。這顛覆了千百年來(lái)人類的思維慣例,對(duì)人類的認(rèn)知和與世界交流的方式提出了全新的挑戰(zhàn)。大數(shù)據(jù)時(shí)代的到來(lái),將從多個(gè)方面變革傳統(tǒng)的檔案思維模式。管理思維上,將推動(dòng)檔案館從經(jīng)驗(yàn)驅(qū)動(dòng)到循數(shù)管理的轉(zhuǎn)變,用數(shù)據(jù)說(shuō)話;服務(wù)思維上,檔案館的服務(wù)理念將實(shí)現(xiàn)從供給導(dǎo)向到需求導(dǎo)向的轉(zhuǎn)變,實(shí)現(xiàn)從資源密集型服務(wù)到服務(wù)主導(dǎo)型的轉(zhuǎn)變;業(yè)務(wù)思維上,從追尋“因果律”走向?qū)徱暋跋嚓P(guān)性”,從出現(xiàn)問(wèn)題——邏輯分析——找出因果關(guān)系——提出解決方案的逆向思維模式,到收集數(shù)據(jù)——量化分析——找出相互關(guān)系——提出優(yōu)化方案的正向思維模式轉(zhuǎn)變。

3.2大數(shù)據(jù)對(duì)檔案信息資源建設(shè)的影響

迫于物質(zhì)和技術(shù)條件限制,在小數(shù)據(jù)時(shí)代我們無(wú)法對(duì)產(chǎn)生的所有成果(檔案)全部歸檔和保存,因而有必要制定一個(gè)歸檔范圍,即確定哪些要?dú)w檔保存,哪些不需要?dú)w檔保存;同時(shí)對(duì)歸檔保存的信息和數(shù)據(jù)要根據(jù)其價(jià)值確定不同的保管期限以節(jié)省人力和物力資源。近20年來(lái),隨著移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、物聯(lián)網(wǎng)等新興技術(shù)的蓬勃發(fā)展和廣泛應(yīng)用,以及各種傳感器的無(wú)所不在,信息技術(shù)已經(jīng)可以將一切“數(shù)據(jù)化”。在過(guò)去的50年中,數(shù)字存儲(chǔ)成本大約每?jī)赡昃拖鳒p一半,而存儲(chǔ)密度則增加了5000萬(wàn)倍。在大數(shù)據(jù)背景下,“一切歸檔”的目標(biāo)已經(jīng)具備了較為成熟的技術(shù)條件和物質(zhì)基礎(chǔ)。大數(shù)據(jù)時(shí)代,檔案概念呈泛化趨勢(shì),“每一條記錄都將變成具有長(zhǎng)期保存價(jià)值的檔案,這些單位價(jià)值密度低的記錄信息將作為不可分割的整體來(lái)發(fā)揮檔案的價(jià)值”?!耙磺芯哂斜4鎯r(jià)值的文件、數(shù)據(jù)、視頻、實(shí)物都將視為檔案,基于信息系統(tǒng)的電子文件在形成之后‘一秒鐘’即形成‘電子檔案’”。

3.3大數(shù)據(jù)對(duì)檔案信息安全的影響

數(shù)據(jù)安全的問(wèn)題一直是信息安全的重要內(nèi)容,信息安全業(yè)界對(duì)于數(shù)據(jù)安全的探討從來(lái)沒(méi)有減少過(guò),大數(shù)據(jù)時(shí)代的到來(lái)讓業(yè)內(nèi)人士更加不確定。據(jù)報(bào)道,對(duì)全球200個(gè)安全權(quán)威專家調(diào)查表明:40%的專家無(wú)法處理所收集到的海量安全數(shù)據(jù);35%的專家沒(méi)有足夠的時(shí)間或?qū)I(yè)人員來(lái)分析他們收集的安全數(shù)據(jù)和信息。這些數(shù)字也更能直觀地說(shuō)明在大數(shù)據(jù)時(shí)代,安全面臨的挑戰(zhàn)十分嚴(yán)峻。EMC信息安全事業(yè)部RSA公司的信息安全專家胡軍認(rèn)為,安全是一個(gè)基礎(chǔ)的問(wèn)題,數(shù)據(jù)價(jià)值越大,數(shù)據(jù)的量越大,安全面臨的風(fēng)險(xiǎn)就越大。大數(shù)據(jù)是信息化發(fā)展到一定階段的必然結(jié)果,大數(shù)據(jù)時(shí)代檔案信息資源的一個(gè)基本特征就是檔案信息的大規(guī)模數(shù)字化。數(shù)字化檔案信息具有以下特點(diǎn):(1)對(duì)軟硬件系統(tǒng)的依賴性。技術(shù)的更新、軟硬件設(shè)備的升級(jí)可能會(huì)導(dǎo)致原有的信息無(wú)法識(shí)別。(2)存儲(chǔ)的高密度性。數(shù)字化檔案信息存儲(chǔ)的高密度性在我們節(jié)約館藏空間,擴(kuò)大館藏容量的同時(shí),也對(duì)載體的保護(hù)提出了更嚴(yán)格的要求,因?yàn)槿魏我粭l輕微的劃痕都有可能導(dǎo)致數(shù)以千計(jì)的檔案信息遭到破壞。(3)信息與載體之間的可分離性。數(shù)字化檔案信息可以以非實(shí)體形式進(jìn)行加工和管理,這種可分離性造成了數(shù)字化檔案信息的易于更改、易于復(fù)制、自由流動(dòng)、易于傳輸。

3.4大數(shù)據(jù)對(duì)檔案利用服務(wù)的影響

《大數(shù)據(jù)時(shí)代》的作者維克托·邁爾·舍恩伯格認(rèn)為,“大量的數(shù)據(jù)能夠讓傳統(tǒng)行業(yè)更好地了解客戶需求,提供個(gè)性化的服務(wù)。定制化服務(wù)的關(guān)鍵是數(shù)據(jù)”。大數(shù)據(jù)時(shí)代,高校檔案服務(wù)方式將發(fā)生變革,檔案利用效率將大幅提升。大數(shù)據(jù)時(shí)代的檔案利用不同于傳統(tǒng)的“你來(lái)我找”的被動(dòng)式服務(wù),也不僅是利用現(xiàn)代信息技術(shù)進(jìn)行制作、加工、傳播、轉(zhuǎn)換和二次開(kāi)發(fā)。而是要通過(guò)對(duì)檔案信息資源挖掘、用戶信息和用戶需求進(jìn)行分析、關(guān)系洞察及趨勢(shì)預(yù)測(cè),開(kāi)展基于海量檔案數(shù)據(jù)和先進(jìn)技術(shù)分析的全息檔案資源的相關(guān)性研究,從而實(shí)現(xiàn)檔案信息資源與用戶需求的雙向理想控制。大數(shù)據(jù)時(shí)代高校檔案館會(huì)更多地開(kāi)展主動(dòng)推介式個(gè)性化服務(wù)。

4大數(shù)據(jù)時(shí)代高校檔案工作的對(duì)策

4.1樹(shù)立全歸檔意識(shí)

所謂全歸檔,包括三個(gè)方面的含義,一是接收,做到應(yīng)收盡收。高校檔案的收集范圍應(yīng)該涵蓋管理、教學(xué)、科研、教輔、后勤保障等所有校內(nèi)單位。內(nèi)容上要注意公文與業(yè)務(wù)材料并重,不可偏頗。檔案類型上既要做到傳統(tǒng)的紙質(zhì)檔案與電子文檔并存,同時(shí)兼顧圖片、錄音、錄像、實(shí)物、數(shù)據(jù)庫(kù)、多媒體、網(wǎng)頁(yè)等多種類型。檔案的“收”要做到全流程控制,將檔案管理融入到學(xué)校辦公自動(dòng)化系統(tǒng)、教學(xué)管理、行政管理、學(xué)生管理等系統(tǒng)中,將文件、數(shù)據(jù)歸檔流程寫入發(fā)文環(huán)節(jié)、教學(xué)環(huán)節(jié)、管理環(huán)節(jié)等,抓好文檔的前端控制。二是征集,做到用開(kāi)放的心態(tài)面向全社會(huì)征集一切和學(xué)校相關(guān)的史料和實(shí)物。重點(diǎn)征集對(duì)象為學(xué)校老領(lǐng)導(dǎo)、老教授,學(xué)校知名校友。三是采集,采集網(wǎng)絡(luò)信息資源和用戶需求信息。高校的內(nèi)部機(jī)構(gòu)都建設(shè)有自己的門戶網(wǎng)站,這些網(wǎng)站上了大量的教學(xué)、科研、管理、對(duì)外交流等形式多樣的信息資源,高校檔案館要積極主動(dòng)采集有保存價(jià)值的信息。另外高校檔案館還要采集用戶基本信息和用戶需求信息,以備對(duì)其進(jìn)行分析,從而提供個(gè)性化服務(wù)。在大數(shù)據(jù)背景下傳統(tǒng)的檔案資源建設(shè)思想發(fā)生不小的變化,即我們已經(jīng)不再需要確定一個(gè)歸檔范圍,不再需要對(duì)其價(jià)值進(jìn)行人為的鑒定和加注標(biāo)簽。我們所要做的就是將所有的真實(shí)的記錄全部歸檔,減少人為的影響,保存檔案的原貌,還原檔案的真實(shí),從而構(gòu)建一個(gè)基于互聯(lián)網(wǎng)的,以檔案數(shù)字資源為主體,以文本、圖片、音視頻等為形式的高校記憶數(shù)字資源庫(kù)。

4.2構(gòu)建檔案信息資源大數(shù)據(jù)集

檔案數(shù)字化是大數(shù)據(jù)時(shí)代必要的基礎(chǔ)性建設(shè),也是發(fā)揮高校檔案館潛在價(jià)值的重要臺(tái)階,緊抓大數(shù)據(jù)戰(zhàn)略的契機(jī),實(shí)現(xiàn)檔案數(shù)字化建設(shè)跨越式發(fā)展,對(duì)高校檔案館而言,具有重要意義。具體需要做以下工作:結(jié)合高校檔案資源特點(diǎn)和工作實(shí)際,(1)研究制定高校檔案館館藏檔案數(shù)字化實(shí)施方案,全面啟動(dòng)檔案數(shù)字化工作;(2)研究制定高校檔案館數(shù)字化建設(shè)實(shí)施方案,啟動(dòng)數(shù)字檔案館建設(shè);(3)研究制定高校檔案館紙質(zhì)檔案數(shù)字化的規(guī)范和標(biāo)準(zhǔn);(4)研究制定高校電子文檔移交與接收辦法;(5)運(yùn)用云技術(shù)創(chuàng)建檔案大數(shù)據(jù)基礎(chǔ)架構(gòu),讓檔案大數(shù)據(jù)在這個(gè)平臺(tái)上運(yùn)行;(6)運(yùn)用云技術(shù)構(gòu)建高校檔案信息資源的大數(shù)據(jù)集。

4.3建設(shè)檔案信息安全體系

大數(shù)據(jù)時(shí)代,高校檔案館的數(shù)字化館藏和虛擬館藏的比例會(huì)大大提高,檔案安全管理的重心要向數(shù)字化館藏和虛擬館藏方向傾斜。要確保數(shù)字化檔案信息內(nèi)容的真實(shí)性、完整性、機(jī)密性和長(zhǎng)期可用性。高校檔案館必須建立健全人防、物防、技防三位一體的檔案信息安全防范體系。具體的安全保障措施包括以下幾個(gè)方面:(1)加大對(duì)數(shù)字化檔案信息安全法規(guī)的理論研究;(2)制定高校數(shù)字化檔案信息安全解決方案;(3)購(gòu)買優(yōu)質(zhì)的硬件設(shè)備并在運(yùn)行過(guò)程中加強(qiáng)管理和維護(hù),確??茖W(xué)使用;(4)采用先進(jìn)的網(wǎng)絡(luò)安全技術(shù)和數(shù)據(jù)安全技術(shù)等多種現(xiàn)代信息新技術(shù)。如訪問(wèn)控制技術(shù)、防治病毒技術(shù)和安全檢測(cè)技術(shù)、密碼技術(shù)、備份技術(shù)、仿真、遷移、再生性技術(shù)、簽署技術(shù)、消息認(rèn)證技術(shù)、防寫技術(shù)以及數(shù)字水印技術(shù)等;(5)使用正版軟件,增強(qiáng)安全意識(shí)并做到及時(shí)升級(jí),及時(shí)打補(bǔ)丁,同時(shí)檢查系統(tǒng)的各項(xiàng)設(shè)置;(6)數(shù)據(jù)結(jié)構(gòu)化;(7)加固網(wǎng)絡(luò)層端點(diǎn)的數(shù)據(jù)安全;(8)檔案信息數(shù)據(jù)庫(kù)異地存儲(chǔ);(9)提高檔案從業(yè)人員的信息素養(yǎng)和職業(yè)道德意識(shí)。

4.4挖掘檔案信息大資源,推行個(gè)性化定制化檔案信息服務(wù)

高校檔案館擁有海量的檔案數(shù)據(jù),同時(shí)掌握了豐富的傳統(tǒng)信息資源管理經(jīng)驗(yàn),是大數(shù)據(jù)時(shí)代的“資本擁有者”,然而這些數(shù)據(jù)目前只有極少部分得到了有效開(kāi)發(fā)。如何從海量原始檔案數(shù)據(jù)中發(fā)掘出有價(jià)值的信息和知識(shí),滿足不同檔案用戶的信息需求,將成為高校檔案館的一項(xiàng)重要工作。高校檔案館要綜合運(yùn)用數(shù)據(jù)挖掘、數(shù)理統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、智能算法及云計(jì)算技術(shù)對(duì)檔案信息數(shù)據(jù)進(jìn)行分析。具體流程如下:(1)制定針對(duì)不同服務(wù)對(duì)象和服務(wù)需求的服務(wù)目標(biāo);(2)采集用戶基本信息和用戶利用習(xí)慣信息,分析用戶檢索行為,建立用戶信息庫(kù);(3)依據(jù)用戶潛在的檔案信息需求分析結(jié)果,檢索館藏檔案資源信息及網(wǎng)絡(luò)信息數(shù)據(jù);(4)運(yùn)用數(shù)據(jù)分析技術(shù)在智能數(shù)據(jù)處理平臺(tái)上對(duì)檢索出的數(shù)據(jù)進(jìn)行過(guò)濾、整合、分析;(5)利用數(shù)據(jù)可視化技術(shù)和人機(jī)交互技術(shù),對(duì)檔案信息數(shù)據(jù)進(jìn)行解釋,借助高校檔案門戶網(wǎng)站、移動(dòng)終端等多種手段檔案信息。

參考文獻(xiàn)

[1]劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(bào),2014(6):954-972.

[2]中國(guó)教育部批準(zhǔn)的高等學(xué)校名單、新批準(zhǔn)的學(xué)校名單[OL]. moe.gov.cn /publicfiles/business/htmlfiles/moe/moe_229/201306/153565.html.

[3][英]維克托·邁爾·舍恩伯格,肯尼思.庫(kù)克耶.大數(shù)據(jù)時(shí)代[M].浙江人民出版社,2013(1).

第3篇:大數(shù)據(jù)時(shí)代的定義與特點(diǎn)范文

關(guān)鍵詞:大數(shù)據(jù);信息服務(wù);圖書館

大數(shù)據(jù)已成為2012年以來(lái)的研究熱點(diǎn)。大數(shù)據(jù)被稱為"碎片中的智慧",被視為驅(qū)動(dòng)新一輪技術(shù)革命的關(guān)鍵力量,它正在顯現(xiàn)出巨大的價(jià)值。根據(jù)麥肯錫咨詢公司測(cè)算,大數(shù)據(jù)每年可為美國(guó)醫(yī)療服務(wù)業(yè)節(jié)省3000億美元,使零售業(yè)凈利潤(rùn)增長(zhǎng)60%,幫助制造業(yè)在產(chǎn)品研發(fā)、組裝等環(huán)節(jié)降低50%的成本。美國(guó)將大數(shù)據(jù)定義為"未來(lái)的新石油", 全球500強(qiáng)企業(yè)中90%以上的重要決策都取決于深入的數(shù)據(jù)挖掘和分析。大數(shù)據(jù)已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。并隨著近年來(lái)互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關(guān)注。

本文在大數(shù)據(jù)的時(shí)代背景下,探討了大數(shù)據(jù)的基本內(nèi)涵與特征,它給醫(yī)院圖書館帶來(lái)的挑戰(zhàn),以及通過(guò)對(duì)大數(shù)據(jù)在醫(yī)院圖書館信息服務(wù)方面的應(yīng)用,期望能夠?yàn)槲磥?lái)的醫(yī)院圖書館信息服務(wù)創(chuàng)新體系提供一些參考。

1大數(shù)據(jù)的內(nèi)涵與特征

1.1大數(shù)據(jù)的內(nèi)涵 大數(shù)據(jù)目前還沒(méi)有統(tǒng)一的定義。維基百科定義大數(shù)據(jù)為巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息。

1.2大數(shù)據(jù)的特征 大數(shù)據(jù)的特征歸納為4個(gè)"V"。①數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別;②數(shù)據(jù)類型繁多。網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。③處理速度快,1秒定律,可從各種類型的數(shù)據(jù)中快速獲得高價(jià)值的信息,這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。④只要合理利用數(shù)據(jù)并對(duì)其進(jìn)行正確、準(zhǔn)確的分析,將會(huì)帶來(lái)很高的價(jià)值回報(bào)。業(yè)界將其歸納為4個(gè)"V"--Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價(jià)值)。

2大數(shù)據(jù)與圖書館

依據(jù)大數(shù)據(jù)定義,單體圖書館數(shù)據(jù)總量雖然還沒(méi)有達(dá)到PB級(jí),但從圖書館存儲(chǔ)數(shù)據(jù)種類和數(shù)量以及未來(lái)發(fā)展趨勢(shì)上來(lái)說(shuō),已經(jīng)初步具備了大數(shù)據(jù)基本特征。圖書館除了館藏的圖書、期刊、論文等紙質(zhì)資源外,還擁有大量的數(shù)據(jù)庫(kù)資源、多媒體資源、電子圖書、電子文檔,還有圖書館管理系統(tǒng)信息。此外,伴隨著平板電腦、智能手機(jī)等移動(dòng)設(shè)備以及社交網(wǎng)絡(luò)的出現(xiàn),移動(dòng)終端用戶行為和服務(wù)等非結(jié)構(gòu)化數(shù)據(jù)量逐年增加[1]。

2010年底,國(guó)家圖書館數(shù)字資源已達(dá)到480 TB,到"十二五"末,國(guó)家圖書館數(shù)字資源總量要達(dá)到1000 TB,每個(gè)省級(jí)數(shù)字圖書館可用數(shù)字資源量將達(dá)100 TB,每個(gè)市級(jí)數(shù)字圖書館可用數(shù)字資源量達(dá)30 TB,每個(gè)縣級(jí)數(shù)字圖書館可用數(shù)字資源量達(dá)4 TB。文化共享工程將建設(shè)"公共文化數(shù)字資源基礎(chǔ)庫(kù)群",資源總量達(dá)到530 TB。

3大數(shù)據(jù)環(huán)境下對(duì)醫(yī)院圖書館信息服務(wù)的挑戰(zhàn)

當(dāng)前數(shù)字時(shí)代,醫(yī)院數(shù)字圖書館結(jié)構(gòu)化資源內(nèi)容豐富,結(jié)構(gòu)完整,包括電子圖書、電子期刊、電子報(bào)紙、數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)資源在內(nèi)的海量數(shù)字資源。非結(jié)構(gòu)化數(shù)據(jù)如聲音、視頻、音頻、圖片等可視可聽(tīng)的數(shù)據(jù),因?yàn)樾畔⒓夹g(shù)原因以及不夠重視而缺乏。圖書館在此結(jié)構(gòu)化資源基礎(chǔ)上盡力實(shí)現(xiàn)用戶的最大滿意和最大程度利用。但在大數(shù)據(jù)時(shí)代,醫(yī)學(xué)信息量以指數(shù)的態(tài)勢(shì)增長(zhǎng)。要求醫(yī)院圖書館對(duì)醫(yī)療專業(yè)部門的支撐越來(lái)越強(qiáng),醫(yī)務(wù)工作者沒(méi)有足夠的時(shí)間和精力查詢相關(guān)專業(yè)資訊,這就要求圖書館對(duì)醫(yī)學(xué)專業(yè)具有較強(qiáng)的支撐能力,能夠在浩如煙海的信息中找到最有效的信息,乃至參與醫(yī)療決策[2]。

4大數(shù)據(jù)環(huán)境下醫(yī)院圖書館信息服務(wù)

大數(shù)據(jù)時(shí)代要求醫(yī)院圖書館信息服務(wù)將向數(shù)據(jù)分析、數(shù)據(jù)挖掘方向轉(zhuǎn)移,利用大量的結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)去挖掘讀者行為,預(yù)測(cè)和分析讀者的興趣和潛在需求,從而主動(dòng)的為用戶提供個(gè)性化、精準(zhǔn)化的信息服務(wù)。

4.1提供主動(dòng)的、有針對(duì) 醫(yī)院圖書館的服務(wù)對(duì)象主要可以分為:臨床醫(yī)護(hù)人員、醫(yī)技人員、科研人員、行政管理人員和進(jìn)修生、實(shí)習(xí)生人員。顯然,各類用戶群對(duì)信息的需求差異很大,同一類用戶群中因?yàn)閷哟尾煌畔⑿枨笠泊嬖谳^大差異。通過(guò)大數(shù)據(jù)平臺(tái)的挖掘分析,區(qū)分開(kāi)用戶群,然后針對(duì)不同用戶群開(kāi)展不同層次的服務(wù)。醫(yī)療科研人員的學(xué)科專業(yè)性非常明顯,信息需求主要集中在與專業(yè)領(lǐng)域緊密相關(guān)的生物醫(yī)學(xué)文獻(xiàn)上,不同專業(yè)的用戶需求差異明顯,而相同專業(yè)的用戶具有相近的興趣度,根據(jù)其相似性,可以得出某一時(shí)期某一學(xué)科的科研熱點(diǎn),以及該領(lǐng)域的研究進(jìn)展,實(shí)時(shí)動(dòng)態(tài)地為他們提供專屬信息,提高文獻(xiàn)推送效率,使醫(yī)療科研人員更快地洞察最新的科研走向。

4.2提供個(gè)性化、精準(zhǔn)化服務(wù) 在大數(shù)據(jù)時(shí)代,用戶面對(duì)眾多數(shù)據(jù)資源,深受大數(shù)據(jù)所帶來(lái)的困擾,很難方便、快捷、準(zhǔn)確地檢索到所需數(shù)據(jù)資料。圖書館可通過(guò)大數(shù)據(jù)分析平臺(tái)對(duì)每個(gè)用戶的檢索關(guān)鍵詞、瀏覽歷史、下載數(shù)據(jù)、流量數(shù)據(jù)、讀者留言、新書推薦以及其博客、微博、移動(dòng)圖書館等各種社交媒體產(chǎn)生的交互信息的分析,挖掘每個(gè)用戶的隱性信息需求,發(fā)現(xiàn)并預(yù)測(cè)其信息需求特點(diǎn)以及趨勢(shì),針對(duì)每個(gè)用戶提供精準(zhǔn)的、個(gè)性化的信息,以提高每個(gè)用戶獲取信息的速度和深度。

5加強(qiáng)大數(shù)據(jù)人才培養(yǎng)

大數(shù)據(jù)時(shí)代對(duì)醫(yī)院圖書館工作提出了更高的信息服務(wù)標(biāo)準(zhǔn),要求醫(yī)院圖書館不但能夠通過(guò)結(jié)構(gòu)化數(shù)據(jù)了解現(xiàn)在醫(yī)療科研人員需要什么服務(wù),也能夠利用非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)深度挖掘預(yù)測(cè)和分析將來(lái)會(huì)發(fā)生什么。美國(guó)研究圖書館協(xié)會(huì)提出,研究數(shù)據(jù)管理是下一代圖書館員的能力之一。研究型生物醫(yī)學(xué)專業(yè)圖書館應(yīng)盡快引進(jìn)或培養(yǎng)一支大數(shù)據(jù)管理專業(yè)隊(duì)伍。當(dāng)前的任務(wù)是如何在現(xiàn)有基礎(chǔ)上,拓寬館員知識(shí)面,增強(qiáng)業(yè)務(wù)能力,使之成為大數(shù)據(jù)知識(shí)服務(wù)信息資源的組織者、傳播者、導(dǎo)航者和教育者[3]。

6對(duì)用戶隱私的保護(hù)

大數(shù)據(jù)收集了用戶的個(gè)人信息、搜索歷史、地理位置等大量信息,很可能威脅到用戶的隱私,讓用戶有知情權(quán),個(gè)人數(shù)據(jù)保存期限和用途將有用戶自行設(shè)置,這樣既解除了用戶的顧慮,圖書館又能合法的利用數(shù)據(jù),在不暴露用戶個(gè)人隱私的前提下為醫(yī)療科研人員提供優(yōu)質(zhì)的個(gè)性化服務(wù)。

7結(jié)論

大數(shù)據(jù)技術(shù)將有力推動(dòng)醫(yī)學(xué)信息服務(wù)向更深層次和更廣范圍拓展。醫(yī)學(xué)圖書館員必須抓住發(fā)展機(jī)遇,不斷提升核心競(jìng)爭(zhēng)力,利用大數(shù)據(jù)創(chuàng)新信息服務(wù),滿足醫(yī)療科研人員日益增長(zhǎng)的信息需求。

參考文獻(xiàn):

[1]王捷.大數(shù)據(jù)時(shí)代下圖書館開(kāi)展信息服務(wù)的對(duì)策[J].現(xiàn)代情報(bào),2013,33(3):81-83.

第4篇:大數(shù)據(jù)時(shí)代的定義與特點(diǎn)范文

大數(shù)據(jù),作為一種數(shù)據(jù)管理的理念和方式,其之所以出現(xiàn),是云計(jì)算和物聯(lián)網(wǎng)等信息技術(shù)的發(fā)展,與人類社會(huì)所積累的數(shù)據(jù)高速增長(zhǎng)并海量積累相結(jié)合的結(jié)果。無(wú)論是如何定義,從本質(zhì)上,大數(shù)據(jù)是信息管理者在當(dāng)今的信息技術(shù)條件下,為解決新的海量信息處理需求,所提出的解決策略。而作為典型的信息管理活動(dòng)之一的檔案事業(yè),勢(shì)必會(huì)受到大數(shù)據(jù)理念的影響。

大數(shù)據(jù)并不是一個(gè)嚴(yán)謹(jǐn)而完整的學(xué)術(shù)概念,其所包含的內(nèi)容相對(duì)比較抽象,從字面意義上進(jìn)行理解,大數(shù)據(jù)所指的是數(shù)據(jù)規(guī)模的龐大。但從這一意義上來(lái)看,顯然無(wú)法與傳統(tǒng)的以往一系列概念進(jìn)行區(qū)別,如“海量數(shù)據(jù)”(Massive Data)、“超大規(guī)模數(shù)據(jù)”(Very Large Data)。在學(xué)術(shù)界,對(duì)于大數(shù)據(jù)的定義尚未形成統(tǒng)一的觀點(diǎn),但綜合各種說(shuō)法,主流的思路是從大數(shù)據(jù)的特征出發(fā),通過(guò)歸納的方式,通過(guò)對(duì)特征的描述進(jìn)行定義。其中最有代表性的是3V定義[1],即認(rèn)為大數(shù)據(jù)需滿足3個(gè)特點(diǎn):規(guī)模性(Volume)、多樣性(Variety)和高速性(Velocity)。此外在實(shí)踐層面,普遍認(rèn)為大數(shù)據(jù)具有全數(shù)據(jù)規(guī)模、多數(shù)據(jù)類型、低價(jià)值密度、高處理速度的特點(diǎn)。

在數(shù)據(jù)管理理念層面,大數(shù)據(jù)的特點(diǎn)在于全數(shù)據(jù)規(guī)模、豐富的數(shù)據(jù)類型(可能包含半結(jié)構(gòu)化數(shù)據(jù))、全數(shù)據(jù)處理對(duì)象、多數(shù)據(jù)處理工具;在數(shù)據(jù)處理技術(shù)層面,大數(shù)據(jù)體現(xiàn)為對(duì)云計(jì)算和新一代數(shù)據(jù)庫(kù)的應(yīng)用;在操作方式層面,大數(shù)據(jù)體現(xiàn)為對(duì)零散信息價(jià)值的重視及對(duì)數(shù)據(jù)之間相關(guān)而非因果關(guān)系的分析。

二、大數(shù)據(jù)對(duì)檔案工作帶來(lái)的機(jī)遇

(一)解決信息化背景下檔案的“脹庫(kù)”問(wèn)題

近年來(lái),隨著電子文件的理念逐步得到認(rèn)可,以及檔案的單位管理成本的降低,加之人們對(duì)于歸檔保存的重要性的認(rèn)識(shí)的提升,我國(guó)的檔案總量步入了一個(gè)高速增長(zhǎng)的時(shí)期[2],但與此同時(shí),信息化背景下的檔案數(shù)據(jù)庫(kù)脹庫(kù)問(wèn)題也隨之到來(lái)了,其中較為明顯的表現(xiàn)為“新增數(shù)據(jù)失敗”等[3],脹庫(kù)問(wèn)題帶來(lái)的,不僅僅對(duì)新增檔案管理上的難題,同樣重要的是,由于脹庫(kù)現(xiàn)象的出現(xiàn),檔案的服務(wù)利用的效率將大打折扣,其原因在于案卷在出現(xiàn)脹庫(kù)的過(guò)程中,無(wú)法及時(shí)有效地歸檔并建立索引以提供服務(wù),破壞了檔案案卷之間的連續(xù)性和關(guān)聯(lián)性,降低了檔案中所提供的信息的價(jià)值。信息化背景下檔案的“脹庫(kù)”問(wèn)題,本質(zhì)上在于存儲(chǔ)和計(jì)算資源分配的不夠合理,傳統(tǒng)的數(shù)據(jù)庫(kù)架構(gòu)在處理新的海量數(shù)據(jù)的過(guò)程中,靈活性遠(yuǎn)遠(yuǎn)不夠。解決這一問(wèn)題,需要求助于大數(shù)據(jù)技術(shù)框架中的云計(jì)算技術(shù)[4],利用云計(jì)算技術(shù)強(qiáng)大的調(diào)配計(jì)算資源的能力,根據(jù)數(shù)據(jù)處理規(guī)模的需要,配置數(shù)字化檔案管理所需要的存儲(chǔ)和計(jì)算資源,保證檔案的服務(wù)利用效率。

(二)有利于推動(dòng)社會(huì)檔案觀的普及

大數(shù)據(jù)的核心在于從海量的數(shù)據(jù)中挖掘價(jià)值[5],這為檔案價(jià)值的進(jìn)一步發(fā)現(xiàn)和提升,提供了一個(gè)新的思路。傳統(tǒng)的檔案服務(wù)利用概念中,檔案的服務(wù)利用對(duì)象是特定并且相對(duì)單一的,原因在于檔案通過(guò)卷宗的形式,將一個(gè)相對(duì)完整的信息“包裹”存留,這部分相對(duì)完整的信息最終成為了檔案卷宗的主題。而在服務(wù)利用的過(guò)程中,“主題匹配”成為了最為常見(jiàn)的檔案定位方式,而主要來(lái)自于政府機(jī)關(guān)、企事業(yè)單位的日常運(yùn)行信息形成的檔案,其主題自然會(huì)牢牢地與其形成機(jī)關(guān)的業(yè)務(wù)活動(dòng)相對(duì)應(yīng),而檔案卷宗中所包含的零散的信息價(jià)值,相對(duì)容易被忽略,如今被公眾廣泛利用的檔案,多數(shù)是民生檔案[6],而其他類型檔案中的零散信息價(jià)值,缺乏有效的挖掘服務(wù)利用手段,這是社會(huì)檔案觀在普及過(guò)程中必須解決的問(wèn)題之一,即如何幫助公眾挖掘他們所關(guān)心的分散于海量檔案中的信息價(jià)值。大數(shù)據(jù)為檔案的服務(wù)利用提供了新的價(jià)值挖掘工具,使得分散在海量數(shù)據(jù)中的零散價(jià)值成為可能,這就意味借助大數(shù)據(jù)的信息分析工具,公眾將能夠從主題上看上去并不相關(guān)的眾多檔案中,發(fā)掘其自身所需要的信息,獲取相應(yīng)的信息價(jià)值,將推動(dòng)公眾逐漸意識(shí)到檔案作為當(dāng)今社會(huì)最重要的信息價(jià)值載體之一的重要意義,而一旦這樣的意識(shí)逐步成型,檔案社會(huì)觀將得到普遍的認(rèn)可。

(三)有利于處理多載體類型的檔案

信息技術(shù)的發(fā)展對(duì)于檔案管理工作的重要影響之一,就是提供了多樣化的信息載體形式,豐富了檔案的類型,從最原始的紙質(zhì)載體的文書檔案,發(fā)展到如今的音像檔案、圖片等等。而隨著電子文件概念不斷獲得認(rèn)可,新的信息載體形式層出不窮,從理論上講,每當(dāng)出現(xiàn)一種新的信息載體形式,就會(huì)相對(duì)應(yīng)地出現(xiàn)該載體形式的檔案。這就意味著未來(lái)檔案的管理工作必將是基于多載體的,其載體的豐富程度可能會(huì)遠(yuǎn)遠(yuǎn)超過(guò)我們的預(yù)期,而為最大程度保證原始證據(jù)價(jià)值,在技術(shù)條件允許的前提下,未來(lái)的檔案管理工作將會(huì)嘗試接受半結(jié)構(gòu)化的數(shù)據(jù)作為檔案,以最大程度地保留證據(jù)價(jià)值[7]。這使得未來(lái)的檔案載體形式將呈現(xiàn)數(shù)量多、增長(zhǎng)快的特點(diǎn),這就要求針對(duì)具體檔案類型的管理工具,或者抽象為一類特定的數(shù)據(jù)處理工具,是無(wú)法實(shí)現(xiàn)“One size fit all”的,即不再存在能夠完美處理所有的檔案載體類型的管理工具。這一點(diǎn)上與大數(shù)據(jù)對(duì)處理多數(shù)據(jù)類型過(guò)程中所提出的數(shù)據(jù)工具組合的理念,是相一致的。未來(lái)的檔案服務(wù)利用活動(dòng),由于其面向的檔案對(duì)象的載體是多樣的,對(duì)其進(jìn)行利用的工具也將是多樣的,甚至為處理一些半結(jié)構(gòu)化的數(shù)據(jù)的過(guò)程中,可能會(huì)需要多種數(shù)據(jù)處理工具的組合。

(四)有利于電子文件的管理

大數(shù)據(jù)將從真實(shí)性、有效性、及時(shí)性三個(gè)方面提升電子文件的管理水平。首先從真實(shí)性角度考慮,由于電子文件驚人的增長(zhǎng)速度,其真實(shí)性鑒定工作一直是困擾檔案工作者的難題之一,傳統(tǒng)的“直接鑒定法”在實(shí)際操作的過(guò)程中所消耗的人力物力成本過(guò)于巨大[8],因此鑒定文件的真實(shí)性需要求助于大數(shù)據(jù)技術(shù)處理海量數(shù)據(jù)并分析復(fù)雜數(shù)據(jù)的能力;第二,從有效性角度考慮,電子文件的結(jié)構(gòu)化特征并不明顯,大量的電子文件都是半結(jié)構(gòu)化甚至是非結(jié)構(gòu)化的,在這種數(shù)據(jù)類型情況并不穩(wěn)定的前提下,處理數(shù)據(jù)對(duì)象單一的傳統(tǒng)檔案管理數(shù)據(jù)庫(kù)結(jié)構(gòu)是難于駕馭的,而大數(shù)據(jù)技術(shù)框架下對(duì)于多數(shù)據(jù)結(jié)構(gòu)的兼容性,能夠較好地解決這一問(wèn)題,提升對(duì)電子文件進(jìn)行管理的有效性;第三,從及時(shí)性的角度考慮,電子文件的指數(shù)增長(zhǎng),使得及時(shí)地對(duì)新增檔案進(jìn)行管理成為了檔案工作者所面臨的一大難題,這樣的海量數(shù)據(jù)的實(shí)時(shí)處理,是檔案管理過(guò)程中前所未有的,這需要利用大數(shù)據(jù)技術(shù)框架中通過(guò)云計(jì)算的方式提升數(shù)據(jù)處理的及時(shí)性,才能保證電子文件管理的及時(shí)性。

三、大數(shù)據(jù)背景下檔案工作的發(fā)展趨勢(shì)

(一)從數(shù)字化到數(shù)據(jù)化

為應(yīng)對(duì)信息時(shí)代對(duì)于檔案工作新要求,檔案數(shù)字化的工作已經(jīng)進(jìn)行了多年,并在一定程度上解決了傳統(tǒng)檔案利用信息技術(shù)進(jìn)行管理及共享的問(wèn)題[9],收到了相當(dāng)?shù)某尚?。但在大?shù)據(jù)時(shí)代背景下,數(shù)字化僅僅是解決了載體形式或者說(shuō)是信息技術(shù)的應(yīng)用問(wèn)題,可以理解為檔案工作對(duì)信息技術(shù)的適應(yīng)性應(yīng)用,對(duì)于深入的數(shù)據(jù)挖掘與利用是遠(yuǎn)遠(yuǎn)不夠的。在大數(shù)據(jù)的時(shí)代背景下,信息管理者已經(jīng)不再滿足于更易管理和共享的信息形式,應(yīng)更為關(guān)注信息所能帶來(lái)的價(jià)值,這就要求對(duì)于檔案的管理工作框架,需要實(shí)現(xiàn)從數(shù)字化到數(shù)據(jù)化的轉(zhuǎn)變,即不僅僅能夠?qū)崿F(xiàn)對(duì)檔案案卷的數(shù)字化管理,更能夠根據(jù)海量數(shù)據(jù)挖掘利用的需要,對(duì)檔案的管理深入到數(shù)據(jù)層面,這將更為適合大數(shù)據(jù)技術(shù)架構(gòu)下對(duì)數(shù)據(jù)的“流處理”模式。

(二)從信息共享到信息價(jià)值共享

隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)挖掘技術(shù)的應(yīng)用進(jìn)入了一個(gè)全新的階段,所有的信息管理者都面臨著同樣一個(gè)問(wèn)題:將簡(jiǎn)單而直接的信息共享活動(dòng)轉(zhuǎn)換為更為高級(jí)的信息價(jià)值的共享,即需要對(duì)自身所掌握的信息的價(jià)值有清晰的掌握和準(zhǔn)確的理解,對(duì)應(yīng)到檔案工作者的現(xiàn)狀上,即檔案工作者僅僅了解自己在管理哪些檔案并提供服務(wù)利用,已經(jīng)無(wú)法適應(yīng)大數(shù)據(jù)時(shí)代對(duì)檔案服務(wù)利用的要求了,而需要能夠了解自己所掌握的檔案能做什么,所提供的檔案利用服務(wù)所實(shí)現(xiàn)的是什么功能,也就是要明確所掌握的檔案的價(jià)值。這需要對(duì)檔案利用服務(wù)的認(rèn)識(shí)有更加深入的認(rèn)識(shí),在大數(shù)據(jù)時(shí)代的背景下,由于對(duì)信息價(jià)值提取效率的提升,對(duì)于信息價(jià)值的共享將成為所有信息服務(wù)利用的主流趨勢(shì),這對(duì)檔案服務(wù)利用工作將是全新的挑戰(zhàn),這不僅僅要求能夠靈活地運(yùn)用大數(shù)據(jù)技術(shù)在整合檔案數(shù)據(jù)的基礎(chǔ)上挖掘其中蘊(yùn)含的價(jià)值,更加需要檔案工作者對(duì)于信息價(jià)值有著更為敏感的“嗅覺(jué)”。

四、大數(shù)據(jù)對(duì)檔案工作帶來(lái)的挑戰(zhàn)

(一)如何嵌入數(shù)據(jù)挖掘環(huán)節(jié)

傳統(tǒng)的檔案管理活動(dòng),最為通行的說(shuō)法是包含收集、整理、保管、鑒定、統(tǒng)計(jì)和提供利用六個(gè)主要環(huán)節(jié),這六個(gè)環(huán)節(jié)組成了基本的檔案管理活動(dòng),并組成了一次完整的信息從收集到提供利用的過(guò)程。在大數(shù)據(jù)的時(shí)代背景下,對(duì)于檔案管理活動(dòng)提出了新的要求,即主動(dòng)地挖掘其中的價(jià)值并提供利用服務(wù),這就涉及到一個(gè)流程嵌入的問(wèn)題,即數(shù)據(jù)挖掘環(huán)節(jié)應(yīng)該通過(guò)什么樣的方式嵌入到檔案管理活動(dòng)中來(lái),是作為一個(gè)單獨(dú)的環(huán)節(jié)嵌入到檔案的管理流程之中,還是在傳統(tǒng)的檔案管理活動(dòng)的某一環(huán)節(jié)中實(shí)現(xiàn)數(shù)據(jù)挖掘的功能,直接關(guān)系到檔案管理活動(dòng)流程的合理性。數(shù)據(jù)挖掘的嵌入問(wèn)題,當(dāng)檔案事業(yè)逐步步入電子文件時(shí)代之后,必須要解決的問(wèn)題。

(二)如何保障檔案信息的安全性

大數(shù)據(jù)對(duì)于檔案信息的共享程度提出了更高的要求,只有在檔案資源高度共享的情況下,大數(shù)據(jù)技術(shù)框架下的云計(jì)算平臺(tái)才能發(fā)揮作用,真正實(shí)現(xiàn)檔案信息價(jià)值的利用。但隨之而來(lái),就是檔案信息的安全性問(wèn)題,如何解決在多類型、多結(jié)構(gòu)、高共享程度狀態(tài)下的數(shù)據(jù)安全問(wèn)題,已經(jīng)顯得十分棘手。工作人員操作失誤、設(shè)備及網(wǎng)絡(luò)故障、計(jì)算機(jī)病毒、網(wǎng)絡(luò)黑客攻擊等對(duì)檔案信息安全構(gòu)成威脅的因素,在大數(shù)據(jù)的技術(shù)框架下,所造成的威脅可能會(huì)被相應(yīng)地放大。大數(shù)據(jù)時(shí)代的檔案信息的保密工作,其重心很有可能不再是保密體制的設(shè)計(jì),而更有可能是信息安全技術(shù)的有效應(yīng)用。

第5篇:大數(shù)據(jù)時(shí)代的定義與特點(diǎn)范文

進(jìn)入21 世紀(jì),人類在信息存儲(chǔ)和處理能力方面不斷涌現(xiàn)技術(shù)性的突破,大數(shù)據(jù)(Big Data)一詞越來(lái)越多地被提及,人們用它來(lái)描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù)。大數(shù)據(jù)是繼云計(jì)算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革。大數(shù)據(jù)時(shí)代的到來(lái),各行各業(yè)都面臨著對(duì)龐大而復(fù)雜的數(shù)據(jù)進(jìn)行有效管理的巨大挑戰(zhàn),人們?cè)絹?lái)越認(rèn)識(shí)到對(duì)自身產(chǎn)生和擁有的大數(shù)據(jù)進(jìn)行有效管理的重要性和迫切性,災(zāi)害檔案數(shù)據(jù)管理也不例外。隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)通訊技術(shù)的飛速發(fā)展,災(zāi)害管理信息化程度不斷提高,災(zāi)害檔案數(shù)字化、網(wǎng)絡(luò)化管理已成為網(wǎng)絡(luò)信息時(shí)代檔案管理工作的必然選擇。面對(duì)洶涌而來(lái)的大數(shù)據(jù),災(zāi)害檔案數(shù)據(jù)管理工作如何應(yīng)對(duì),是擺在我們面前一個(gè)亟需研究的課題。

一、大數(shù)據(jù)的概念

關(guān)于大數(shù)據(jù)的定義,最早提出“大數(shù)據(jù)”時(shí)代到來(lái)的全球知名咨詢公司麥肯錫稱:大數(shù)據(jù)是指無(wú)法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具對(duì)其內(nèi)容進(jìn)行采集、存儲(chǔ)、管理和分析的數(shù)據(jù)集合。維基百科的定義:大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營(yíng)決策目的的資訊。還有學(xué)者認(rèn)為大數(shù)據(jù)指的是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)[1]。可以看出,大數(shù)據(jù)由海量交易數(shù)據(jù)、海量交互數(shù)據(jù)和海量數(shù)據(jù)處理三大主要的技術(shù)趨勢(shì)匯聚而成[2]。

從本質(zhì)上看,大數(shù)據(jù)主要解決的是海量數(shù)據(jù)存儲(chǔ)、計(jì)算、挖掘和利用的問(wèn)題。其特點(diǎn)可概括為“ 4V”,一是規(guī)模性(Volume),數(shù)據(jù)容量巨大,大型數(shù)據(jù)集合一般在幾十TB至PB級(jí)的數(shù)據(jù)量;二是多樣性(Variety),數(shù)據(jù)類別繁多,數(shù)據(jù)來(lái)自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富;三是高速性(Velocity),數(shù)據(jù)處理速度快,在數(shù)據(jù)量龐大的情況下,實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)處理;四是價(jià)值性(Value),數(shù)據(jù)真實(shí)性高,愈發(fā)需要有效的信息資源確保其真實(shí)性與安全性[3]。可以說(shuō),大數(shù)據(jù)時(shí)代是一個(gè)數(shù)據(jù)資源更加豐富的時(shí)代,是一個(gè)信息技術(shù)更加先進(jìn)的時(shí)代。

災(zāi)害檔案數(shù)據(jù)資源主要來(lái)自災(zāi)害管理和科研活動(dòng)產(chǎn)生的電子文件,按照來(lái)源和形成方式不同,可以分為數(shù)據(jù)庫(kù)文件、電子數(shù)據(jù)表、字處理文檔、電子郵件、掃描圖像、地理空間數(shù)字記錄、數(shù)字照片、網(wǎng)站及其相關(guān)文檔。災(zāi)害檔案數(shù)據(jù)具有分布性、多源性、異構(gòu)性等特點(diǎn)。從災(zāi)害檔案管理部門來(lái)看,災(zāi)害檔案資源主要集中在民政、水利、氣象、地震、國(guó)土、環(huán)保、測(cè)繪、軍隊(duì)、海洋等部門,檔案數(shù)據(jù)源分散在不同部門、不同地點(diǎn),并由不同行業(yè)、不同單位和組織機(jī)構(gòu)所擁有。從災(zāi)害檔案內(nèi)容來(lái)看,包括災(zāi)情、氣象、遙感影像、基礎(chǔ)地理、專題地圖、涉災(zāi)行業(yè)、經(jīng)濟(jì)統(tǒng)計(jì)、現(xiàn)場(chǎng)多媒體等多種數(shù)據(jù)。近年來(lái),災(zāi)害檔案數(shù)據(jù)管理有了較大提高,但由于缺乏強(qiáng)有力的技術(shù)支持,檔案信息服務(wù)水平還比較落后,普遍存在管理意識(shí)薄弱、數(shù)字化建設(shè)不足、服務(wù)方式被動(dòng)、開(kāi)發(fā)利用欠缺等一系列的不足,利用信息技術(shù)進(jìn)行檔案數(shù)據(jù)分析、開(kāi)發(fā)、利用、交換、共享的水平還很低,沒(méi)有充分發(fā)揮檔案信息的憑證、參考和情報(bào)作用,無(wú)法滿足管理部門對(duì)災(zāi)害檔案信息的需求。

二、大數(shù)據(jù)技術(shù)在災(zāi)害檔案數(shù)據(jù)管理中的應(yīng)用優(yōu)勢(shì)

目前大數(shù)據(jù)研究成果最多的是大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。大數(shù)據(jù)技術(shù)的特色在于它依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)和云存儲(chǔ)、虛擬化技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘,在金融、醫(yī)療、教育、軍事、電子商務(wù)甚至政府決策等幾乎所有的領(lǐng)域都有非常廣闊的應(yīng)用空間。隨著大數(shù)據(jù)時(shí)代的到來(lái),應(yīng)用大數(shù)據(jù)技術(shù)讓災(zāi)害檔案數(shù)據(jù)獲取、儲(chǔ)存、搜索、共享、分析,乃至可視化地呈現(xiàn),成為了可能,為災(zāi)害檔案數(shù)據(jù)管理提供新思路和新方法。

1.大數(shù)據(jù)技術(shù)對(duì)實(shí)現(xiàn)災(zāi)害檔案智能管理提供強(qiáng)大保障。大數(shù)據(jù)技術(shù)具有的可靠安全的數(shù)據(jù)存儲(chǔ)、方便快捷的云服務(wù)、超強(qiáng)的計(jì)算能力、諸多技術(shù)的集合體、良好的經(jīng)濟(jì)效益以及以用戶為中心的個(gè)性化服務(wù)等優(yōu)勢(shì),對(duì)實(shí)現(xiàn)災(zāi)害檔案“存儲(chǔ)數(shù)字化、管理自動(dòng)化、利用網(wǎng)絡(luò)化”智能管理提供保障。應(yīng)用大數(shù)據(jù)技術(shù)對(duì)分散于不同部門、不同地理位置的檔案數(shù)據(jù)資源進(jìn)行管理、傳輸、檢索和提供利用,滿足用戶對(duì)檔案信息的遠(yuǎn)程訪問(wèn)操作,包括信息查詢、檢索、統(tǒng)計(jì)、提取等,實(shí)現(xiàn)檔案數(shù)據(jù)資源的互聯(lián)互通和共享利用,將檔案“藏”和“用”的功能都提高到一個(gè)新的水平,對(duì)于充分發(fā)揮檔案數(shù)據(jù)資源的價(jià)值具有前所未有的推動(dòng)作用。

2.大數(shù)據(jù)技術(shù)對(duì)實(shí)現(xiàn)災(zāi)害檔案數(shù)據(jù)挖掘提供有力支持。數(shù)據(jù)越來(lái)越多。傳統(tǒng)的檔案管理以文檔管理為主,檔案基本處于被動(dòng)利用,沉淀的檔案沒(méi)有人去分析利用,也沒(méi)有技術(shù)工具去支撐挖掘和分析。大數(shù)據(jù)最核心的價(jià)值就在于對(duì)海量數(shù)據(jù)進(jìn)行存儲(chǔ)和分析,只有通過(guò)分析,才能獲取更多智能的、深入的、有價(jià)值的信息。在大數(shù)據(jù)時(shí)代,檔案系統(tǒng)中除了大量的文檔之外,還有海量結(jié)構(gòu)化數(shù)據(jù),并且數(shù)據(jù)利用的效果要大于文檔利用效果。檔案部門在收集大數(shù)據(jù)之后,通過(guò)主動(dòng)調(diào)查利用者的需求,建立各種數(shù)據(jù)模型,對(duì)海量數(shù)據(jù)進(jìn)行聚類、分類、相關(guān)性分析,找到數(shù)據(jù)之間的關(guān)系,提高檔案價(jià)值,將原來(lái)的“死檔案”變成“活信息”,為災(zāi)害管理決策提供參考。

3.大數(shù)據(jù)技術(shù)對(duì)實(shí)現(xiàn)災(zāi)害檔案知識(shí)服務(wù)提供解決途徑,解決災(zāi)害檔案如何實(shí)現(xiàn)知識(shí)服務(wù),如何從浩如煙海的檔案數(shù)據(jù)中快速識(shí)別、選擇和有效利用檔案信息,為災(zāi)害管理部門提供知識(shí)服務(wù)和智力支持,發(fā)揮檔案的參考憑證、決策咨詢、評(píng)估依據(jù)作用。應(yīng)用大數(shù)據(jù)智能識(shí)別、傳感與適配等技術(shù),構(gòu)建基于基礎(chǔ)框架體系、大數(shù)據(jù)處理體系、過(guò)程管理體系、大數(shù)據(jù)分析與決策體系、交互體系的大數(shù)據(jù)知識(shí)服務(wù)平臺(tái)[4]將成為有效的解決辦法和途徑。災(zāi)害檔案大數(shù)據(jù)知識(shí)服務(wù)平臺(tái)搭建的是一個(gè)大數(shù)據(jù)獲取、存儲(chǔ)、組織、分析和決策服務(wù)資源和服務(wù)能力共享、交易和協(xié)作的智慧平臺(tái),依據(jù)災(zāi)害管理不同行業(yè)、不同領(lǐng)域、不同需求的大數(shù)據(jù)處理需求,在平臺(tái)上實(shí)現(xiàn)數(shù)據(jù)、知識(shí)、資源、能力、服務(wù)、過(guò)程和任務(wù)等資源和能力的共享和協(xié)作。

三、大數(shù)據(jù)時(shí)代下災(zāi)害檔案數(shù)據(jù)管理的應(yīng)對(duì)策略

當(dāng)前,我國(guó)經(jīng)濟(jì)發(fā)展已進(jìn)入新常態(tài),認(rèn)識(shí)新常態(tài)、適應(yīng)新常態(tài)、引領(lǐng)新常態(tài),是當(dāng)前和今后一個(gè)時(shí)期中國(guó)經(jīng)濟(jì)發(fā)展的大邏輯,也是發(fā)展檔案事業(yè)的基本遵循。災(zāi)害檔案工作主動(dòng)適應(yīng)新常態(tài),需要分析發(fā)展新變化,順應(yīng)發(fā)展新趨勢(shì),這既是經(jīng)濟(jì)社會(huì)發(fā)展對(duì)災(zāi)害檔案管理提出的更高要求,也是檔案事業(yè)深化改革和持續(xù)發(fā)展的內(nèi)在需要。在大數(shù)據(jù)時(shí)代背景下,災(zāi)害檔案的產(chǎn)生主體、利用群體、生態(tài)環(huán)境都發(fā)生著新變化,災(zāi)害檔案數(shù)據(jù)管理應(yīng)用大數(shù)據(jù)技術(shù)分析、挖掘出龐大的檔案數(shù)據(jù)獨(dú)有的價(jià)值,從“被動(dòng)服務(wù)”向“主動(dòng)服務(wù)”轉(zhuǎn)變,還面臨著諸多挑戰(zhàn),需要從以下方面加以完善和提高。

1.建立高效有序的運(yùn)行機(jī)制。大數(shù)據(jù)建設(shè)是一項(xiàng)有序的、動(dòng)態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程,必須建立良好的運(yùn)行機(jī)制,以促進(jìn)建設(shè)過(guò)程中各個(gè)環(huán)節(jié)的正規(guī)有序,實(shí)現(xiàn)統(tǒng)籌協(xié)調(diào),搞好頂層設(shè)計(jì)。應(yīng)當(dāng)增強(qiáng)災(zāi)害檔案數(shù)據(jù)管理意識(shí),做好災(zāi)害檔案數(shù)據(jù)發(fā)展規(guī)劃,并將其納入國(guó)家綜合防災(zāi)減災(zāi)規(guī)劃中,建立災(zāi)害檔案數(shù)據(jù)標(biāo)準(zhǔn)與規(guī)范,構(gòu)建檔案數(shù)據(jù)管理系統(tǒng),實(shí)現(xiàn)災(zāi)害檔案數(shù)據(jù)有效組織、集中存儲(chǔ)、共享與服務(wù)。

2.制定科學(xué)規(guī)范的建設(shè)標(biāo)準(zhǔn)。災(zāi)害管理涉及部門多、領(lǐng)域多、專業(yè)復(fù)雜,各部門都是按照各自定義的內(nèi)部數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行信息系統(tǒng)建設(shè),因此存在災(zāi)害檔案數(shù)據(jù)資源結(jié)構(gòu)不統(tǒng)一、標(biāo)準(zhǔn)不配套等問(wèn)題。沒(méi)有標(biāo)準(zhǔn)就沒(méi)有系統(tǒng),應(yīng)建立面向不同主題、覆蓋各個(gè)領(lǐng)域、不斷動(dòng)態(tài)更新的大數(shù)據(jù)建設(shè)標(biāo)準(zhǔn),為實(shí)現(xiàn)各級(jí)各類信息系統(tǒng)的網(wǎng)絡(luò)互連、信息互通、資源共享奠定基礎(chǔ)。

3.搭建共享利用的服務(wù)平臺(tái)。我國(guó)的災(zāi)害管理涉及多個(gè)部門,通過(guò)幾十年的努力,已經(jīng)積累了海量與防災(zāi)減災(zāi)相關(guān)的專題數(shù)據(jù),并建立了一些信息網(wǎng)絡(luò)系統(tǒng),部分開(kāi)展了信息共享,但絕大多數(shù)災(zāi)害管理相關(guān)數(shù)據(jù)還沒(méi)有實(shí)現(xiàn)有效共享和利用。數(shù)據(jù)只有不斷流動(dòng)和充分共享,才有生命力,所以應(yīng)在各專用數(shù)據(jù)庫(kù)建設(shè)的基礎(chǔ)上,通過(guò)數(shù)據(jù)集成,實(shí)現(xiàn)各級(jí)各類信息系統(tǒng)的數(shù)據(jù)交換和數(shù)據(jù)共享。

4.培養(yǎng)高素質(zhì)的專業(yè)隊(duì)伍。災(zāi)害檔案大數(shù)據(jù)建設(shè)的每個(gè)環(huán)節(jié)都需要依靠專業(yè)人員完成。一方面,需要培養(yǎng)和造就一支懂指揮、懂技術(shù)、懂管理的大數(shù)據(jù)建設(shè)專業(yè)隊(duì)伍;另一方面,需要加強(qiáng)檔案管理人員對(duì)信息技術(shù)的掌握,加強(qiáng)檔案管理人員大數(shù)據(jù)相關(guān)知識(shí)的培訓(xùn)和輔導(dǎo),做好大數(shù)據(jù)背景下檔案管理的人才儲(chǔ)備。

第6篇:大數(shù)據(jù)時(shí)代的定義與特點(diǎn)范文

【關(guān)鍵詞】大數(shù)據(jù) 高校 綜合辦公 創(chuàng)新

伴隨著21世紀(jì)互聯(lián)網(wǎng)技術(shù)不斷發(fā)展,互聯(lián)網(wǎng)滲透到了世界之中的各個(gè)角落,其中包含當(dāng)前比較前沿的科技領(lǐng)域以及我們實(shí)際生活中的方方面面?;ヂ?lián)網(wǎng)技術(shù)之中的大數(shù)據(jù)管理技術(shù)能夠不斷進(jìn)行資源共享以及資源的傳播,所以,為了能夠在辦公之中實(shí)現(xiàn)高校并且達(dá)到創(chuàng)新,這些都是值得探究的問(wèn)題。

1 大數(shù)據(jù)概述

1.1 大數(shù)據(jù)定義

大數(shù)據(jù)是指資料規(guī)模較為巨大,通過(guò)主流的軟件無(wú)法進(jìn)行合理的分析以及采集及管理的資訊。大數(shù)據(jù)具有 4V 特點(diǎn):Volume、 Velocity、Va- riety、Veracity, 是由數(shù)量巨大、 結(jié)構(gòu)復(fù)雜、類型眾多的數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合, 是基于云計(jì)算的數(shù)據(jù)處理與 應(yīng)用模式, 通過(guò)數(shù)據(jù)的整合共享, 交叉復(fù)用,形成的智 力資源和知識(shí)服務(wù)能力。

1.2 大數(shù)據(jù)的特點(diǎn)

1.2.1 大數(shù)據(jù)量巨大

一般都是以PB級(jí)別進(jìn)行估量。

1.2.2 數(shù)據(jù)類型比較繁多

比如網(wǎng)絡(luò)日志、圖片、地理信息以及相關(guān)的視頻信息。

1.2.3 數(shù)據(jù)價(jià)值密度較低

將視頻作為例子,可以看到在不間斷的監(jiān)控的視頻之中能夠真正用到的數(shù)據(jù)只有不到1秒鐘。

1.2.4 處理速度迅速

與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)明顯不同,大數(shù)據(jù)的處理速度非常迅速。云計(jì)算、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、以及各種多媒體載體,這些遍布全球都是多媒體數(shù)據(jù)的來(lái)源。

2 在高校綜合辦公之中的實(shí)際應(yīng)用

2.1 網(wǎng)絡(luò)辦公中的大數(shù)據(jù)技術(shù)應(yīng)用

各類的網(wǎng)絡(luò)辦公團(tuán)建存在著部門層次較多、管理鏈條較長(zhǎng)以及面向的對(duì)象較廣的問(wèn)題,大數(shù)據(jù)處理技術(shù)的應(yīng)用可以很好的處理這些問(wèn)題。大數(shù)據(jù)的技術(shù)發(fā)展,將海量的網(wǎng)絡(luò)信息進(jìn)行有效的處理以及優(yōu)化,最終達(dá)到便捷、預(yù)判以及可靠的效果。

在正常的網(wǎng)絡(luò)辦公之中,應(yīng)該提升網(wǎng)絡(luò)辦公故障的預(yù)處理能力。網(wǎng)絡(luò)設(shè)備的故障的出現(xiàn)之前,應(yīng)該進(jìn)行對(duì)故障設(shè)備的預(yù)警,通過(guò)對(duì)網(wǎng)絡(luò)運(yùn)行設(shè)備的基礎(chǔ)信息以及歷史運(yùn)行的數(shù)據(jù)挖掘與良好的處理,可以進(jìn)行設(shè)備的正常運(yùn)行狀態(tài)的檢測(cè)值的設(shè)置。通過(guò)大數(shù)據(jù)技術(shù),可以實(shí)時(shí)檢測(cè)計(jì)算機(jī)網(wǎng)絡(luò)的各種 活動(dòng),通過(guò)對(duì)網(wǎng)絡(luò)異常行為的發(fā)現(xiàn)、預(yù)警,網(wǎng)絡(luò)流量與狀態(tài)的監(jiān) 測(cè)、分析,來(lái)處理眾多安全事件,從而提升網(wǎng)絡(luò)辦公體系的安全 防御能力。

2.2 提升資源合理配置,加強(qiáng)綠色通信的實(shí)現(xiàn)

伴隨著辦公之中的終端數(shù)據(jù)的激增,大數(shù)據(jù)技術(shù)不斷滲透到了資源的配置之中。所以在實(shí)際的辦公之中,應(yīng)該對(duì)辦公的流程、文件的提取以及行政安排,進(jìn)行能源消耗的降低并且營(yíng)造綠色的網(wǎng)絡(luò)。

(1)實(shí)現(xiàn)網(wǎng)絡(luò)資源的動(dòng)態(tài)分配。通過(guò)動(dòng)態(tài)自適應(yīng)的方法, 充分考慮服務(wù)需求、網(wǎng)絡(luò)流量等情況,再配備相應(yīng)的行政資源。

(2)大數(shù)據(jù)技術(shù)支持龐大數(shù)據(jù)的存儲(chǔ)和處理,使行政管理資源的統(tǒng)一管理或統(tǒng)一備份成為可能。

2.3 進(jìn)行有效的數(shù)據(jù)整合

行政辦公系統(tǒng)之中,數(shù)據(jù)類型不再是以單一的文本為主要資源形式的結(jié)構(gòu)化數(shù)據(jù),其中還包括眾多的音頻、視頻、地理位置,在綜合辦公之中這些數(shù)據(jù)的處理應(yīng)該利用大數(shù)據(jù)進(jìn)行高??焖俚奶幚?。將辦公之中的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一、整合以及科學(xué)重組,最后使得行政管理能夠迅速傳遞信息。

2.4 加強(qiáng)辦公的安全性

在大數(shù)據(jù)背景下進(jìn)行辦公,應(yīng)該加強(qiáng)辦公環(huán)境的安全性。大數(shù)據(jù)技術(shù)的應(yīng)用實(shí)現(xiàn)了大量數(shù)據(jù)的處理以及實(shí)現(xiàn)。不可控制的大量數(shù)據(jù)其中包含病毒、黑客的攻擊以及系統(tǒng)的漏洞。為了能夠提升高校綜合辦公,應(yīng)該加強(qiáng)辦公的安全性??梢詮脑L問(wèn)控制、網(wǎng)絡(luò)隔離以及人侵檢測(cè)、病毒防治這幾個(gè)方面提升大數(shù)據(jù)環(huán)境辦公網(wǎng)絡(luò)安全度。

2.5 提升綜合辦公效率

大數(shù)據(jù)技術(shù)的應(yīng)用提升了綜合辦公的效率,減少了冗余的時(shí)間。在行政辦公之中海量數(shù)據(jù)中存在著大量噪聲, 在數(shù)據(jù)集成時(shí)需要對(duì)數(shù)據(jù)進(jìn)行清洗, 保證數(shù)據(jù)的質(zhì)量和可信性。 有利于各部門之間快捷有效的溝通并開(kāi)展工作。大數(shù)據(jù)技術(shù)實(shí)現(xiàn)了資源共享,資源可以快速在各部門與院系之間傳遞。人員處理信息資源的速度提升,提升了綜合辦公效率。

3 結(jié)束語(yǔ)

大數(shù)據(jù)時(shí)代的來(lái)臨,對(duì)于行政辦公的效率提升有著重要的作用。在高校綜合辦公之中,大數(shù)據(jù)必然有著廣闊的應(yīng)用前景。綜合辦公在大數(shù)據(jù)時(shí)代將獲得巨大的突破,辦公中蘊(yùn)藏著的巨大知識(shí)寶藏能夠得到更好的開(kāi)發(fā)與利用。

參考文獻(xiàn)

[1]覃雄派,王會(huì)舉,杜小勇等.大數(shù)據(jù)分析――RDBMS與MapReduce的競(jìng)爭(zhēng)與共生[J].軟件學(xué)報(bào),2012,23(1):32-45.DOI:10.3724/SP.J.1001.2012.04091.

[2]李玉梓.辦公軟件Excel的應(yīng)用技巧[J].產(chǎn)業(yè)與科技論壇,2015,(9):95-96.DOI:10.3969/j.issn.1673-5641.2015.09.053.

[3]高校辦公[J].辦公自動(dòng)化:辦公設(shè)備與耗材,2012,(10):48-48.

[4]王元卓,靳小龍,程學(xué)旗等.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013,36(6):1125-1138.DOI:10.3724/SP.J.1016.2013.01125.

第7篇:大數(shù)據(jù)時(shí)代的定義與特點(diǎn)范文

關(guān)鍵詞: 大數(shù)據(jù)時(shí)代 高校宣傳思想工作 建議

大數(shù)據(jù)開(kāi)啟了時(shí)代轉(zhuǎn)型之門,隨著信息技術(shù)的發(fā)展,海量的數(shù)據(jù)日益影響著人們的工作、學(xué)習(xí)和生活。8月19日,國(guó)務(wù)院常務(wù)會(huì)通過(guò)《關(guān)于促進(jìn)大數(shù)據(jù)發(fā)展的行動(dòng)綱要》,標(biāo)志著大數(shù)據(jù)已經(jīng)正式上升到國(guó)家最核心戰(zhàn)略。面對(duì)新的形勢(shì),高校宣傳思想工作者如何搶抓機(jī)遇,以“大數(shù)據(jù)”思維推動(dòng)各項(xiàng)工作提檔升級(jí)、創(chuàng)新發(fā)展,是一項(xiàng)亟須深入思考和實(shí)踐的重要課題。

一、大數(shù)據(jù)的概念及基本內(nèi)涵

早在1980年,著名未來(lái)學(xué)家阿爾文?托夫勒便在《第三次浪潮》一書中,將“大數(shù)據(jù)”熱情地贊頌為“第三次浪潮的華彩樂(lè)章”。近年來(lái),大數(shù)據(jù)更是廣受關(guān)注,不過(guò),對(duì)于大數(shù)據(jù)概念的理解并未取得一致。麥肯錫是研究大數(shù)據(jù)的先驅(qū),認(rèn)為大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)庫(kù)工具獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。國(guó)際數(shù)據(jù)公司(IDC)從大數(shù)據(jù)的四個(gè)特征來(lái)定義,即海量的數(shù)據(jù)規(guī)模(Volume)、快速的數(shù)據(jù)流轉(zhuǎn)和動(dòng)態(tài)的數(shù)據(jù)體系(Velocity)、多樣的數(shù)據(jù)類型(Variety)、巨大的數(shù)據(jù)價(jià)值(Value)[1]。維克?托邁爾?舍恩伯格認(rèn)為:“人們能在大規(guī)模數(shù)據(jù)的基礎(chǔ)之上做到的事情,并且這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上無(wú)法完成,就叫做大數(shù)據(jù)。人們能夠通過(guò)大數(shù)據(jù)獲得更新認(rèn)知、創(chuàng)造更新的價(jià)值觀念;大數(shù)據(jù)還可以改變組織機(jī)構(gòu)和市場(chǎng),以及政府與公民關(guān)系?!睆?qiáng)調(diào)以大數(shù)據(jù)技術(shù)為基礎(chǔ)的新思維和新方法[2]。

盡管對(duì)“大數(shù)據(jù)”的認(rèn)識(shí)存在差別,但綜合不同的定義看,“大數(shù)據(jù)”在不同領(lǐng)域內(nèi)包含三層含義,可以分別從現(xiàn)實(shí)和技術(shù)兩方面加以闡釋:第一層意義上的“大數(shù)據(jù)”指的是數(shù)據(jù)的巨量化和多樣化,現(xiàn)實(shí)方面指的是海量數(shù)據(jù),技術(shù)方面指的是海量數(shù)據(jù)存儲(chǔ);第二層意義上的“大數(shù)據(jù)”指的是大數(shù)據(jù)技術(shù),現(xiàn)實(shí)方面指的是對(duì)已有或者新獲取的大量數(shù)據(jù)進(jìn)行全面分析和利用,技術(shù)方面指的是云存儲(chǔ)和云計(jì)算;第三層意義上的“大數(shù)據(jù)”指的是大數(shù)據(jù)思維或者大數(shù)據(jù)方法,現(xiàn)實(shí)方面指的是把目標(biāo)全體作為樣本的研究方式、模糊化的思維方式、側(cè)重相關(guān)性的思考方式等理念,技術(shù)方面是指利用海量數(shù)據(jù)進(jìn)行分析、處理并用以輔助決策,或者直接進(jìn)行機(jī)器決策、半機(jī)器決策的全過(guò)程大數(shù)據(jù)方法,這種對(duì)大數(shù)據(jù)的認(rèn)知方式涉及“大數(shù)據(jù)項(xiàng)目”或“大數(shù)據(jù)技術(shù)應(yīng)用”的認(rèn)知[3]。

二、大數(shù)據(jù)在高校宣傳思想工作的應(yīng)用價(jià)值

宣傳思想工作是在頭腦中搞建設(shè),向來(lái)被認(rèn)為務(wù)虛多于務(wù)實(shí),經(jīng)驗(yàn)等同于規(guī)律,往往側(cè)重定性分析,忽視定量分析。在互聯(lián)網(wǎng)背景下,如何在師生產(chǎn)生的海量信息數(shù)據(jù)中尋找具有價(jià)值的內(nèi)容,僅僅依靠傳統(tǒng)的定性分析方法顯然不適用。大數(shù)據(jù)引起變革的最重要方面在于它創(chuàng)造了前所未有的可量化維度,使定量分析方法取得了突破性進(jìn)展,也為高校宣傳思想工作由定性向定量、感性向理性、務(wù)虛向務(wù)實(shí)轉(zhuǎn)變提供了新的機(jī)遇。

(一)夯實(shí)宣傳思想工作基礎(chǔ)。

大學(xué)生思想政治教育是高校宣傳思想工作的一項(xiàng)重要內(nèi)容。由于當(dāng)代大學(xué)生群體是伴隨著互聯(lián)網(wǎng)成長(zhǎng)起來(lái)的,他們思想活躍,主動(dòng)積極,并敢于創(chuàng)新和實(shí)踐行動(dòng),因此,對(duì)其思想動(dòng)態(tài)、情感就更加難以把握,對(duì)其未來(lái)行為和言論更加難以預(yù)測(cè)。而大數(shù)據(jù)給思想政治教育提供了呈現(xiàn)和開(kāi)發(fā)利用信息的方法,以全面收集學(xué)生網(wǎng)上、日?;顒?dòng)等海量信息為前提,通過(guò)加工和綜合處理使之轉(zhuǎn)化成有效信息的基礎(chǔ)上,進(jìn)行分析、判斷、過(guò)濾、提純,使之成為有價(jià)值的“思想狀況大數(shù)據(jù)庫(kù)”,進(jìn)而達(dá)成對(duì)教育對(duì)象的全面認(rèn)識(shí)和準(zhǔn)確把握。

(二)豐富宣傳思想工作方法。

高校身處國(guó)家意識(shí)形態(tài)工作的前沿,在這個(gè)“人人都有麥克風(fēng)”的全媒體時(shí)代,如何加強(qiáng)網(wǎng)絡(luò)輿論引導(dǎo),鞏固擴(kuò)大宣傳思想陣地,已經(jīng)是勢(shì)在必行。要預(yù)測(cè)分析引導(dǎo)輿情,首要條件是對(duì)各種關(guān)聯(lián)的數(shù)據(jù)進(jìn)行分析計(jì)算。在大數(shù)據(jù)的支撐下,突破了傳統(tǒng)數(shù)據(jù)時(shí)代片面化、單一化、靜態(tài)化的思維,定量研究、定性研究、數(shù)學(xué)模型等許多新的研究工具和方法都可以利用,可以將看似無(wú)關(guān)緊要的輿情數(shù)據(jù)納入分析計(jì)算的范圍,從而使輿論引導(dǎo)工作更富科學(xué)性、前瞻性和有效性。

(三)創(chuàng)新宣傳思想工作方式。

隨著信息技術(shù)的發(fā)展,海量的數(shù)據(jù)影響著人們的工作和生活,對(duì)新聞生產(chǎn)方式也產(chǎn)生了廣泛的影響,數(shù)據(jù)新聞應(yīng)運(yùn)而生?!皵?shù)據(jù)新聞”,也被稱為“數(shù)據(jù)驅(qū)動(dòng)新聞”,簡(jiǎn)而言之,就是一種新聞生產(chǎn)方式,對(duì)大量的數(shù)據(jù)和信息進(jìn)行分析、處理,運(yùn)用可視化和敘事化的手段,創(chuàng)作出一種新的新聞報(bào)道方式[4]。當(dāng)前,高校校報(bào)、廣播等傳統(tǒng)媒體的生存環(huán)境正面臨著十分嚴(yán)峻的考驗(yàn),而受眾正向以互聯(lián)網(wǎng)為代表的新媒體遷移,而數(shù)據(jù)新聞?wù)窃陔娮用襟w上才能得以呈現(xiàn)。數(shù)據(jù)新聞通過(guò)可視化的技術(shù)呈現(xiàn)出來(lái),使得新聞?dòng)辛诵碌臄⑹碌姆椒ǎ乃饺擞喼苹?、受眾可參與新聞創(chuàng)作的特點(diǎn),是目前數(shù)據(jù)新聞與其他圖文新聞所不一樣的地方。

三、大數(shù)據(jù)時(shí)代宣傳思想工作面臨的主要問(wèn)題

當(dāng)前,我國(guó)“大數(shù)據(jù)”技術(shù)的開(kāi)發(fā)應(yīng)用,相比歐美等發(fā)達(dá)國(guó)家相對(duì)滯后,在高校宣傳思想領(lǐng)域引入相關(guān)的理念和技術(shù),還屬于理論研究和實(shí)踐起步階段,并存在諸多難點(diǎn)。

(一)戰(zhàn)略認(rèn)識(shí)有待深化。

如今,高校信息化建設(shè)正經(jīng)歷著由簡(jiǎn)單到復(fù)雜、由單一到多元、由局部到整體的全方位一體化的發(fā)展過(guò)程。數(shù)據(jù)分析、數(shù)據(jù)挖掘等技術(shù),在招生、就業(yè)、教學(xué)、科研、人事、財(cái)務(wù)、資產(chǎn)、圖書借閱等方面逐漸開(kāi)始嘗試運(yùn)用,盡管這種探索還是不成熟的、淺層次的。但在宣傳思想工作領(lǐng)域,“穩(wěn)、怕、守”的心理普遍存在,“探、闖、試”的勁頭不足。面對(duì)新時(shí)代、新形勢(shì),在樹(shù)立大數(shù)據(jù)思維、應(yīng)用前沿技術(shù)、推進(jìn)方式方法創(chuàng)新上面缺乏機(jī)遇意識(shí)和前瞻眼光,在頂層設(shè)計(jì)、資源配置、宣傳發(fā)動(dòng)等方面的工作基礎(chǔ)還比較薄弱,借助“大數(shù)據(jù)”為宣傳文化工作提檔升級(jí)仍需凝聚共識(shí)、匯聚力量。

(二)技術(shù)平臺(tái)有待完善。

近年來(lái),隨著移動(dòng)互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等新技術(shù)的興起,學(xué)校師生主動(dòng)產(chǎn)生和由設(shè)備自動(dòng)收集的信息越來(lái)越多,如微博、微信等社交信息,各類搜索點(diǎn)擊記錄信息等。這些信息的有效挖掘和分析,對(duì)開(kāi)展宣傳思想工作有著非常重要的意義。但是上述信息存在著數(shù)據(jù)量大、結(jié)構(gòu)復(fù)雜、產(chǎn)生頻率快的特點(diǎn)。由于缺乏統(tǒng)籌規(guī)劃,許多職能部門各自為政,不少應(yīng)用系統(tǒng)之間沒(méi)有統(tǒng)一的技術(shù)和數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)不能自動(dòng)傳遞,缺乏有效的關(guān)聯(lián)和共享,從而形成“數(shù)據(jù)孤島”。在需要連接多個(gè)數(shù)據(jù)源的情況下,數(shù)據(jù)的提取非常困難,而復(fù)雜的在線分析幾乎無(wú)法實(shí)現(xiàn)。

(三)人才隊(duì)伍有待加強(qiáng)。

大數(shù)據(jù)是一個(gè)綜合性課題,需要不同層級(jí)的人才。麥肯錫公司預(yù)計(jì),美國(guó)到2018年深度數(shù)據(jù)分析人才缺口將達(dá)14萬(wàn)~19萬(wàn)人,能夠分析數(shù)據(jù)幫助公司獲得經(jīng)濟(jì)效益的技術(shù)及管理人才有150萬(wàn)人的缺口。中國(guó)能理解與應(yīng)用大數(shù)據(jù)的創(chuàng)新人才更是稀缺資源[5]。目前,高校大多數(shù)宣傳思想工作者的學(xué)科背景都屬于文史類,大多數(shù)人僅僅是利用互聯(lián)網(wǎng)獲取資料、捕捉師生思想行為的信息,通過(guò)對(duì)微博、微信、QQ空間、貼吧、論壇等新媒體的簡(jiǎn)單運(yùn)用開(kāi)展思想教育和行為引導(dǎo),但對(duì)于深層次的多級(jí)輿情信息,師生針對(duì)某一事件評(píng)論反映出的情緒變化、行動(dòng)性暗示等信息無(wú)法通過(guò)大數(shù)據(jù)、互聯(lián)網(wǎng)等相關(guān)知識(shí)和技術(shù)深度挖掘,這在很大程度上影響著宣傳思想工作與大數(shù)據(jù)時(shí)代的契合。

四、做好大數(shù)據(jù)時(shí)代宣傳思想工作的幾點(diǎn)建議

(一)加強(qiáng)領(lǐng)導(dǎo),為大數(shù)據(jù)時(shí)代的宣傳思想工作提供堅(jiān)實(shí)組織保障。

大數(shù)據(jù)建設(shè)是一項(xiàng)有序的、動(dòng)態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程,必須加強(qiáng)頂層設(shè)計(jì),搞好宣傳發(fā)動(dòng),以促進(jìn)建設(shè)過(guò)程中各個(gè)環(huán)節(jié)的規(guī)范有序。一是做好大數(shù)據(jù)規(guī)劃。高校要利用制定“十三五“規(guī)劃這個(gè)有利時(shí)機(jī),做好宣傳思想工作大數(shù)據(jù)發(fā)展的頂層設(shè)計(jì),明確大數(shù)據(jù)發(fā)展的戰(zhàn)略目標(biāo)、戰(zhàn)略任務(wù)和戰(zhàn)略重點(diǎn),統(tǒng)籌推進(jìn)相關(guān)數(shù)據(jù)中心及基礎(chǔ)數(shù)據(jù)庫(kù)建設(shè)。二是加大資源投入。大數(shù)據(jù)背后是一系列的數(shù)據(jù)挖掘、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析、數(shù)據(jù)顯示、數(shù)據(jù)安全等步驟,每個(gè)環(huán)節(jié)都需要大量人財(cái)物投入。三是加大宣傳教育力度,培養(yǎng)數(shù)據(jù)意識(shí)和數(shù)據(jù)素養(yǎng)。創(chuàng)新內(nèi)容、形式和途徑,把大數(shù)據(jù)專業(yè)知識(shí)列入高校宣傳思想系統(tǒng)領(lǐng)導(dǎo)干部、工作人員教育培訓(xùn)考核重要內(nèi)容。

(二)整合資源,為大數(shù)據(jù)時(shí)代的宣傳思想工作提供一流技術(shù)平臺(tái)。

數(shù)據(jù)只有不斷流動(dòng)和充分共享,才有生命力。一是建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)。要牢固樹(shù)立“大宣傳”意識(shí),規(guī)范數(shù)據(jù)管理的方法、流程、定義,統(tǒng)籌和整合宣傳思想領(lǐng)域各方面異源異構(gòu)性信息數(shù)據(jù),實(shí)現(xiàn)各業(yè)務(wù)模塊間的數(shù)據(jù)庫(kù)的集成、交換和共享,消除“信息孤島”。二是建立嚴(yán)格的數(shù)據(jù)管理制度。制定信息采集和管控、敏感數(shù)據(jù)管理、數(shù)據(jù)交換、數(shù)據(jù)權(quán)益等領(lǐng)域的大數(shù)據(jù)管理規(guī)章制度,明確大數(shù)據(jù)采集、使用、開(kāi)放等環(huán)節(jié)涉及信息安全的范圍、要求和責(zé)任。三是拓寬大數(shù)據(jù)挖掘獲取渠道。加大與人民網(wǎng)、新華網(wǎng)、新浪、騰訊、百度、鳳凰網(wǎng)等主要網(wǎng)站的合作,通過(guò)合作模式獲取后臺(tái)關(guān)鍵數(shù)據(jù)。

(三)創(chuàng)新機(jī)制,為大數(shù)據(jù)時(shí)代的宣傳思想工作提供強(qiáng)大智力支撐。

沒(méi)有一流的人才隊(duì)伍,做好大數(shù)據(jù)時(shí)代高校宣傳思想工作將是一句空話。因此,不斷創(chuàng)新機(jī)制,通過(guò)多種途徑和形式,開(kāi)發(fā)培養(yǎng)一支大數(shù)據(jù)人才隊(duì)伍,提高宣傳思想工作的能力勢(shì)在必行。一要發(fā)揮高校學(xué)科優(yōu)勢(shì),協(xié)同科研單位、媒體機(jī)構(gòu)、政府部門力量,開(kāi)設(shè)專門的數(shù)據(jù)科學(xué)學(xué)科,加強(qiáng)各學(xué)科人才的交叉培養(yǎng),重點(diǎn)培養(yǎng)綜合掌握統(tǒng)計(jì)學(xué)、計(jì)算機(jī)學(xué)、管理學(xué)、新聞傳播學(xué)等各方面知識(shí)的復(fù)合型人才,打造一支規(guī)模宏大的大數(shù)據(jù)人才隊(duì)伍。二是利用“聘任制”,不斷吸引社會(huì)專業(yè)人才進(jìn)入高校宣傳思想工作系統(tǒng)。三是通過(guò)購(gòu)買服務(wù)的方式,短期租賃高精尖大數(shù)據(jù)技術(shù)人才為我所用,不斷健全高校宣傳思想工作大數(shù)據(jù)技術(shù)人才體系。

參考文獻(xiàn):

[1]趙國(guó)棟,等.大數(shù)據(jù)時(shí)代的歷史機(jī)遇[M].北京:清華大學(xué)出版社,2013.

[2]維克托?邁克?舍恩伯格,肯尼斯?庫(kù)克耶,著.盛楊燕,周濤,譯.大數(shù)據(jù)時(shí)代[M].杭州:浙江人民出版社,2013.

[3]馬奔,毛慶鐸.大數(shù)據(jù)在應(yīng)急管理中的應(yīng)用[J].中國(guó)行政管理,2015(3).

第8篇:大數(shù)據(jù)時(shí)代的定義與特點(diǎn)范文

【關(guān)鍵詞】大數(shù)據(jù);思想政治教育;現(xiàn)代化

一、大數(shù)據(jù)的定義及特點(diǎn)

研究機(jī)構(gòu)Gartner定義“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。然而,在各國(guó)提倡下、各行業(yè)創(chuàng)新發(fā)展過(guò)程中,目前所說(shuō)的“大數(shù)據(jù)”不僅指巨量數(shù)據(jù)本身,也包括采集數(shù)據(jù)的工具、平臺(tái)和數(shù)據(jù)分析系統(tǒng)。維克托?邁爾-舍恩伯格及肯尼斯?庫(kù)克耶編寫的《大數(shù)據(jù)時(shí)代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的4V特點(diǎn):Volume(大量)、Variety(多樣)、Value(價(jià)值)、Velocity(高速),具體表述即為數(shù)據(jù)體量巨大、數(shù)據(jù)類型繁多、總價(jià)值巨大但有效價(jià)值密度低、處理速度快。由此可見(jiàn),想要在創(chuàng)新中發(fā)展,必然要優(yōu)化利用大數(shù)據(jù)。

二、大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)

在傳統(tǒng)的高校思想政治教育工作中,核心是政治,最為顯著的教學(xué)方式是課堂授課式灌輸思想,教育成功的決定性因素是教育工作者的道德素質(zhì)和理論水平。而現(xiàn)代化的思想政治教育的本質(zhì)是為人民服務(wù),確立以人為本的發(fā)展性教育理念,要以科學(xué)發(fā)展觀指導(dǎo)大學(xué)生思想政治教育現(xiàn)代化建設(shè),保證教育工作的主客體同步現(xiàn)代化及教育內(nèi)容和教學(xué)方式的現(xiàn)代化。

收集并整理符合時(shí)展要求的教育內(nèi)容是思想政治教育工作的核心型任務(wù)。在互聯(lián)網(wǎng)和電子科技迅捷發(fā)展的過(guò)程中,大量的文字信息或是圖片視頻資料幾乎全部以電子數(shù)據(jù)方式進(jìn)行傳播、留存。根據(jù)大數(shù)據(jù)的4V特點(diǎn),巨量的不同存儲(chǔ)類型的思想政治教育內(nèi)容能夠輕而易舉地被數(shù)據(jù)處理系統(tǒng)統(tǒng)一收集并使用大數(shù)據(jù)技術(shù)進(jìn)行處理。大數(shù)據(jù)技術(shù)意味著從單一領(lǐng)域所包含的各種各樣類型的巨量數(shù)據(jù)集合中,快速獲得有價(jià)值信息,即符合現(xiàn)代化教育要求的內(nèi)容。由此可見(jiàn),大數(shù)據(jù)時(shí)代運(yùn)籌帷幄的關(guān)鍵核心在于合理應(yīng)用大數(shù)據(jù)技術(shù),做到節(jié)約大量人力物力的資金成本,同時(shí)短時(shí)高效地完成數(shù)據(jù)處理過(guò)程并獲取最終成果。

對(duì)思想政治教育工作者而言,能夠從大數(shù)據(jù)中快速獲取大量現(xiàn)代化教學(xué)內(nèi)容是令人振奮的。然而,如何從大數(shù)據(jù)中發(fā)掘出適用于當(dāng)代大學(xué)生思想政治教育專題活動(dòng)的具體內(nèi)容和教學(xué)方式則是一個(gè)不容忽視的現(xiàn)實(shí)的挑戰(zhàn)。這就要求高校思想教育工作者腳踏實(shí)地地進(jìn)行設(shè)計(jì)一套全新的、現(xiàn)代化的、對(duì)大學(xué)生思想政治覺(jué)悟和思維辯證能力具有深遠(yuǎn)影響的解決方案。

三、現(xiàn)代化高校思想政治教育工作的創(chuàng)新

(一)樹(shù)立大數(shù)據(jù)意識(shí),建立教學(xué)資源庫(kù)

高校的思想政治教育工作者和大學(xué)生群體作為教育改革創(chuàng)新中的主客體,被時(shí)代賦予了不可推卸的重任。90后的高校大學(xué)生從小便熟知計(jì)算機(jī)應(yīng)用及互聯(lián)網(wǎng)的發(fā)展歷程,因而對(duì)于科技新生產(chǎn)物接受程度極高,與此同時(shí),作為網(wǎng)絡(luò)和新媒體的主要應(yīng)用者,大學(xué)生群體習(xí)慣于在生活及學(xué)習(xí)中借用電子科技處理問(wèn)題或獲取知識(shí)。在先進(jìn)的思想氛圍烘托下,高校思想政治教育工作者在教學(xué)過(guò)程中提倡樹(shù)立大數(shù)據(jù)意識(shí)有基本立足點(diǎn)。實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn),因此,建立網(wǎng)絡(luò)教學(xué)資源庫(kù)作為必不可少的教育創(chuàng)新之舉,能夠彌補(bǔ)傳統(tǒng)的“填鴨式”教學(xué)模式中的缺陷,為學(xué)生自主學(xué)習(xí)思想政治內(nèi)容提供了科技便利,實(shí)現(xiàn)資源共享。

(二)提高數(shù)據(jù)分析能力,補(bǔ)充數(shù)據(jù)核心內(nèi)涵

大數(shù)據(jù)分析的五個(gè)基本方面,在不同領(lǐng)域的數(shù)據(jù)分析應(yīng)用中會(huì)有不同的參考方向。教學(xué)資源的數(shù)據(jù)分析中需要采用的是語(yǔ)義引擎(即在大數(shù)據(jù)分析廣泛應(yīng)用于網(wǎng)絡(luò)數(shù)據(jù)挖掘的過(guò)程中,可從用戶的搜索關(guān)鍵詞、標(biāo)簽關(guān)鍵詞、或其他輸入語(yǔ)義,分析,判斷用戶需求,從而實(shí)現(xiàn)更好的用戶體驗(yàn)和內(nèi)容匹配),及數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理(即大數(shù)據(jù)分析離不開(kāi)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理,無(wú)論是在學(xué)術(shù)研究還是在商業(yè)應(yīng)用領(lǐng)域,都能夠保證分析結(jié)果的真實(shí)性和價(jià)值性)。建立網(wǎng)絡(luò)教學(xué)資源庫(kù)的根本是語(yǔ)義引擎的設(shè)置,需要將文本、圖片或視頻資源與教學(xué)內(nèi)容的標(biāo)簽關(guān)鍵詞信息一一對(duì)應(yīng)。在保證數(shù)據(jù)信息內(nèi)容一致性的同時(shí),更為重要的是數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,不能忽略教育資源中文本、圖片或視頻資源中的隱含信息,在信息處理過(guò)程中要補(bǔ)充數(shù)據(jù)核心內(nèi)涵。

(三)補(bǔ)充教育實(shí)踐活動(dòng),實(shí)現(xiàn)思教創(chuàng)新改革

現(xiàn)代化的高校思想政治教育是指在全球化進(jìn)程和我國(guó)社會(huì)主義社會(huì)建設(shè)過(guò)程中,人們的生活方式和思想觀念發(fā)生了根本的變化,因此思想政治教育需要結(jié)合新時(shí)代的變化進(jìn)行改革,要以理論觀點(diǎn)結(jié)合創(chuàng)新實(shí)踐活動(dòng)實(shí)現(xiàn)從傳統(tǒng)思想政治教育活動(dòng)到現(xiàn)代化的理論與實(shí)踐相結(jié)合的轉(zhuǎn)型。高校思想政治教育工作者可以使用微信、微博等新媒體在日常工作中對(duì)學(xué)生進(jìn)行潛移默化的思想引導(dǎo),同時(shí)借助新媒體后臺(tái)的數(shù)據(jù)統(tǒng)計(jì)分析學(xué)生們?cè)谒枷胝螌W(xué)習(xí)過(guò)程中期待的教學(xué)內(nèi)容及實(shí)踐活動(dòng),或是開(kāi)放網(wǎng)絡(luò)教學(xué)資源庫(kù),讓學(xué)生們自主參與“DIY紅色經(jīng)典路線”、“學(xué)生自主課堂展示教學(xué)”等專題活動(dòng),使網(wǎng)絡(luò)資源與實(shí)踐活動(dòng)取長(zhǎng)補(bǔ)短,完善現(xiàn)代化思想政治教育的創(chuàng)新。

作者簡(jiǎn)介:高志遠(yuǎn)(1986-),男,籍貫:遼寧省營(yíng)口人,研究方向:大學(xué)生思想政治教育。

參考文獻(xiàn):

[1]張海濱,郭霞n.論大數(shù)據(jù)時(shí)代背景下的高校思想政治教育.教育教學(xué)論壇.2014(12).48-49

[2]孫長(zhǎng)虹.大數(shù)據(jù)時(shí)代高校思想政治教育面臨的挑戰(zhàn)與對(duì)策.重慶理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)),2014(9).143-145.

第9篇:大數(shù)據(jù)時(shí)代的定義與特點(diǎn)范文

關(guān)鍵詞:大數(shù)據(jù);理論,技術(shù)

中圖分類號(hào):TP311.13

1 大數(shù)據(jù)的定義

大數(shù)據(jù)本身是個(gè)比較抽象的概念。顧名思義,其表示數(shù)據(jù)規(guī)模的龐大與數(shù)據(jù)類型的繁多。近年來(lái),隨著數(shù)據(jù)量的爆炸式增長(zhǎng),數(shù)據(jù)的計(jì)量已不能采用人們熟知的GB或TB為單位進(jìn)行描述,而是以PB(1PB=1024TB)、EB(1EB=1024PB),甚至ZB(1ZB=1024EB)為計(jì)量單位。以利用電子顯微鏡構(gòu)建大腦中的突觸網(wǎng)絡(luò)為例。據(jù)估算,大約1mm3大腦的圖像,數(shù)據(jù)量超過(guò)1PB,如此大的數(shù)據(jù)量無(wú)法采用傳統(tǒng)數(shù)據(jù)庫(kù)工具進(jìn)行內(nèi)容抓取、管理和處理。

目前,有關(guān)大數(shù)據(jù)的定義尚未統(tǒng)一,主要有以下3種。

《互聯(lián)網(wǎng)周刊》的定義為:大數(shù)據(jù)涵蓋了人們?cè)诖笠?guī)模數(shù)據(jù)的基礎(chǔ)上可以實(shí)現(xiàn)而在小規(guī)模數(shù)據(jù)的基礎(chǔ)上無(wú)法實(shí)現(xiàn)的事情。也就是說(shuō),大數(shù)據(jù)讓我們以1種前所未有的方式,通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行分析來(lái)獲取蘊(yùn)含巨大價(jià)值的產(chǎn)品、服務(wù)或深刻的洞見(jiàn),最終形成變革之力。

相關(guān)研究機(jī)構(gòu)認(rèn)為:大數(shù)據(jù)是需要采用新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。從數(shù)據(jù)類別上看,大數(shù)據(jù)是指無(wú)法使用傳統(tǒng)流程或工具處理或分析的信息。其定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)方法處理的數(shù)據(jù)集。

IBM通過(guò)分析大數(shù)據(jù)的特征對(duì)大數(shù)據(jù)進(jìn)行了定義,認(rèn)為:類型(variety)、數(shù)量(volume)和速度(velocity)是構(gòu)成大數(shù)據(jù)的3個(gè)主要內(nèi)容。其中,類型指數(shù)據(jù)中包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等多種數(shù)據(jù)形式;數(shù)量指收集和分析的數(shù)據(jù)量非常大;速度指數(shù)據(jù)處理速度要足夠快。

2 大數(shù)據(jù)的產(chǎn)生

現(xiàn)如今,全球數(shù)據(jù)量正以前所未有的速度增長(zhǎng)著,且隨著全球無(wú)線網(wǎng)絡(luò)覆蓋區(qū)域的不斷擴(kuò)大,以及移動(dòng)設(shè)備的出現(xiàn)與發(fā)展,數(shù)據(jù)的增長(zhǎng)已不再受時(shí)間、地點(diǎn)的限制。從目前來(lái)看,大數(shù)據(jù)量的積累與增長(zhǎng)主要經(jīng)歷了3個(gè)階段。

信息化管理被動(dòng)產(chǎn)生數(shù)據(jù)階段。企業(yè)為實(shí)現(xiàn)信息化管理,需存儲(chǔ)、處理企業(yè)辦公文件、財(cái)務(wù)報(bào)表、員工信息等數(shù)據(jù)。這一過(guò)程催生了數(shù)據(jù)庫(kù)的出現(xiàn),如超市庫(kù)存系統(tǒng)、銀行交易記錄系統(tǒng)、企業(yè)員工醫(yī)療信息系統(tǒng)等。因此,辦公信息化促成了人類社會(huì)數(shù)據(jù)量的首次大飛躍。這個(gè)階段產(chǎn)生的數(shù)據(jù)的主要特點(diǎn)是:數(shù)據(jù)伴隨著一定的運(yùn)營(yíng)活動(dòng)而產(chǎn)生,并記錄到數(shù)據(jù)庫(kù)中。例如,企業(yè)人力資源部門錄入員工的基本信息,員工的信息就出現(xiàn)在企業(yè)數(shù)據(jù)庫(kù)中,這種數(shù)據(jù)產(chǎn)生方式是被動(dòng)的。

社交網(wǎng)絡(luò)與便攜設(shè)備主動(dòng)產(chǎn)生數(shù)據(jù)階段。在這一階段,數(shù)據(jù)量的增長(zhǎng)來(lái)自2個(gè)方面:一是開(kāi)放社交網(wǎng)絡(luò)的出現(xiàn),如微博、人人網(wǎng),使用戶主動(dòng)在社交網(wǎng)絡(luò)上發(fā)表自己的看法,分享自己關(guān)注的內(nèi)容,這些過(guò)程產(chǎn)生了大量的數(shù)據(jù);二是以智能手機(jī)、平板電腦為代表的新一代移動(dòng)設(shè)備的出現(xiàn),這些易攜帶、全天候接入互聯(lián)網(wǎng)的設(shè)備使人們能夠更方便地發(fā)表自己的想法等。這些都促成了人類社會(huì)數(shù)據(jù)量的第2次大飛躍,這一階段產(chǎn)生的數(shù)據(jù)是主動(dòng)的。

人、機(jī)、物三者深度融合自動(dòng)產(chǎn)生數(shù)據(jù)階段。隨著物聯(lián)網(wǎng)的發(fā)展,傳感器的使用越來(lái)越廣泛,人類制造的極小的、具有處理功能的傳感器等設(shè)備部署到世界的各個(gè)角落,或?qū)ι鐣?huì)的各種活動(dòng)進(jìn)行監(jiān)控,或?qū)θ祟惿眢w健康狀況進(jìn)行隨時(shí)隨地的監(jiān)測(cè),這些過(guò)程都產(chǎn)生了大量數(shù)據(jù),形成了人類社會(huì)數(shù)據(jù)量的第3次大飛躍,這種數(shù)據(jù)的產(chǎn)生是自動(dòng)的。

綜上所述,數(shù)據(jù)的產(chǎn)生經(jīng)歷了從被動(dòng)到主動(dòng),再到自動(dòng)的過(guò)程,其中,自動(dòng)產(chǎn)生數(shù)據(jù)的過(guò)程是形成大數(shù)據(jù)的根本原因。

3 大數(shù)據(jù)的關(guān)鍵技術(shù)

3.1 文件系統(tǒng)。針對(duì)數(shù)據(jù)存儲(chǔ),文件系統(tǒng)需要考慮3個(gè)問(wèn)題:高性能共享性、文件的管理和保護(hù)、重復(fù)數(shù)據(jù)的處理。尤其是在面對(duì)海量文件時(shí),上述問(wèn)題更加凸顯。例如:美國(guó)谷歌公司設(shè)計(jì)開(kāi)發(fā)了谷歌文件系統(tǒng)GFS――(Googlefilesystem)。

GFS是構(gòu)建在大量廉價(jià)服務(wù)器之上的可擴(kuò)展的分布式文件系統(tǒng),主要針對(duì)文件較大、且讀遠(yuǎn)大于寫的應(yīng)用場(chǎng)景,采用主從(Master-Slave)結(jié)構(gòu),通過(guò)數(shù)據(jù)分塊、追加更新(append-only)等方式實(shí)現(xiàn)了海量數(shù)據(jù)的高效存儲(chǔ)。同時(shí),谷歌公司選擇電價(jià)較低的地點(diǎn)建立存儲(chǔ)庫(kù),從而降低了運(yùn)行成本。

3.2 數(shù)據(jù)庫(kù)系統(tǒng)。大數(shù)據(jù)的特點(diǎn)決定了數(shù)據(jù)庫(kù)系統(tǒng)需解決的問(wèn)題:第一,數(shù)據(jù)量規(guī)模巨大。大數(shù)據(jù)時(shí)代的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過(guò)單機(jī)所能容納的數(shù)據(jù)量,因此,必須采用分布式存儲(chǔ)方式。這就需要系統(tǒng)具有很好的擴(kuò)展性,即適應(yīng)大數(shù)據(jù)的數(shù)據(jù)庫(kù)系統(tǒng)應(yīng)當(dāng)具有良好的橫向擴(kuò)展(scale-out)能力。第二,數(shù)據(jù)異構(gòu)性。結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)均是大數(shù)據(jù)的重要組成部分。高效地處理多種數(shù)據(jù)類型是大數(shù)據(jù)時(shí)代數(shù)據(jù)庫(kù)技術(shù)面臨的重要挑戰(zhàn)之一。第三,設(shè)計(jì)理念要不斷創(chuàng)新。面對(duì)多種類型的數(shù)據(jù),不可能存在統(tǒng)一的數(shù)據(jù)處理方式,這就要求新型的數(shù)據(jù)庫(kù)系統(tǒng)以不斷變化的角度對(duì)待數(shù)據(jù)。

數(shù)據(jù)分析與處理技術(shù)。傳統(tǒng)的針對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘的理論已日臻成熟,但是針對(duì)大數(shù)據(jù)時(shí)代的數(shù)據(jù)類型,則需要開(kāi)發(fā)新的數(shù)據(jù)處理與挖掘技術(shù)。

(1)Hadoop數(shù)據(jù)處理平臺(tái)。目前,數(shù)據(jù)的分析與處理尚沒(méi)有絕對(duì)合適的工具。Hadoop是當(dāng)前最為流行的大數(shù)據(jù)處理平臺(tái)。Hadoop最先是模仿GFS和Mapreduce實(shí)現(xiàn)的云計(jì)算開(kāi)源平臺(tái)。對(duì)Hadoop改進(jìn)并將其應(yīng)用于各種場(chǎng)景的大數(shù)據(jù)處理已經(jīng)成為業(yè)界新的研究熱點(diǎn),主要的研究成果集中在Hadoop平臺(tái)性能改進(jìn)、高效查詢處理、索引構(gòu)建和使用、基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建、Hadoop與數(shù)據(jù)庫(kù)系統(tǒng)的連接、數(shù)據(jù)挖掘、推薦系統(tǒng)等方面。

(2)深度學(xué)習(xí)技術(shù)。深度學(xué)習(xí)通過(guò)建立類似人腦的分層模型結(jié)構(gòu),對(duì)輸入數(shù)據(jù)逐級(jí)提取從底層到高層的特征,從而建立起底層信號(hào)到高層語(yǔ)義的映射關(guān)系。近年來(lái),谷歌公司、淘寶網(wǎng)、百度公司等掌握大量行業(yè)數(shù)據(jù)的企業(yè)都投入了大量人力物力,開(kāi)展深度學(xué)習(xí)技術(shù)的研發(fā)工作,并在語(yǔ)音識(shí)別、圖像、在線廣告等領(lǐng)域取得了顯著進(jìn)展。起初,簡(jiǎn)單的機(jī)器學(xué)習(xí)模型比復(fù)雜模型更有效的觀點(diǎn)十分流行。例如,簡(jiǎn)單的線性模型可能比復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型擁有更大的應(yīng)用空間。然而,近幾年深度學(xué)習(xí)的快速發(fā)展促使人們開(kāi)始重新考慮這個(gè)觀點(diǎn):或許較復(fù)雜的模型或表達(dá)能力更強(qiáng)的模型才能充分發(fā)掘出海量數(shù)據(jù)中蘊(yùn)含的價(jià)值;也許運(yùn)用更復(fù)雜的深度學(xué)習(xí)模型能夠從大數(shù)據(jù)中發(fā)掘出更多有價(jià)值的信息和知識(shí)。

挖掘大數(shù)據(jù)的價(jià)值需要深度模型。如語(yǔ)音識(shí)別作為大數(shù)據(jù)機(jī)器學(xué)習(xí)的重要問(wèn)題之一,在聲學(xué)建模部分,訓(xùn)練樣本達(dá)到了幾億到十幾億,谷歌公司在1項(xiàng)語(yǔ)音識(shí)別實(shí)驗(yàn)中,發(fā)現(xiàn)訓(xùn)練后的模型對(duì)訓(xùn)練樣本和測(cè)試樣本的預(yù)測(cè)誤差基本相當(dāng),然而一般訓(xùn)練樣本的誤差要顯著小于測(cè)試樣本,出現(xiàn)這樣的結(jié)果只有1個(gè)解釋,就是大數(shù)據(jù)中包含豐富的信息維度,即便訓(xùn)練后的高容量復(fù)雜模型,也處于欠擬合的狀態(tài),所以,大數(shù)據(jù)需要深度學(xué)習(xí)。

與采用人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來(lái)深度學(xué)習(xí)和構(gòu)建特征,能夠刻畫出大數(shù)據(jù)內(nèi)更加豐富的信息。在未來(lái)發(fā)展中,深度學(xué)習(xí)在大數(shù)據(jù)中的應(yīng)用將會(huì)越來(lái)越普遍。

相關(guān)硬件設(shè)計(jì)與制造技術(shù)。硬件架構(gòu)不同會(huì)極大地影響系統(tǒng)的處理效率。數(shù)據(jù)處理速度在很大程度上取決于處理過(guò)程中處理時(shí)間最長(zhǎng)的節(jié)點(diǎn)。如果集群中硬件的性能差異過(guò)大,會(huì)導(dǎo)致大量的計(jì)算時(shí)間浪費(fèi)在性能較好的服務(wù)器等待性能較差的服務(wù)器的過(guò)程中。在這種情況下,服務(wù)器的線性增長(zhǎng)并不一定會(huì)帶來(lái)計(jì)算能力的線性增長(zhǎng)。

針對(duì)這些問(wèn)題,有2個(gè)技術(shù)問(wèn)題需要關(guān)注:一是不同結(jié)構(gòu)的硬件之間的匹配,以發(fā)揮最大使用率的技術(shù)問(wèn)題;二是硬件設(shè)計(jì)技術(shù)的提升。

為提升數(shù)據(jù)的處理能力,需要使用高性能硬件。例如,近年出現(xiàn)的基于閃存的固態(tài)硬盤(SSD)采用新型尋址方式和硬件結(jié)構(gòu),從硬件層為存儲(chǔ)系統(tǒng)結(jié)構(gòu)的革新提供了支持,為計(jì)算機(jī)存儲(chǔ)技術(shù)的發(fā)展和存儲(chǔ)能效的提高帶來(lái)了新的契機(jī)。

參考文獻(xiàn):

[1]席曄文,楊金民.基于雙布魯姆過(guò)濾器的數(shù)據(jù)排重技術(shù)[J].計(jì)算機(jī)工程與應(yīng)用.