公務(wù)員期刊網(wǎng) 論文中心 正文

核心期刊多源信息深度聚合模式應(yīng)用

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了核心期刊多源信息深度聚合模式應(yīng)用范文,希望能給你帶來靈感和參考,敬請閱讀。

核心期刊多源信息深度聚合模式應(yīng)用

摘要:針對核心期刊相關(guān)信息的分散異構(gòu),探索其在管理與服務(wù)中的創(chuàng)新應(yīng)用。從3個(gè)層次聚合期刊相關(guān)信息,即數(shù)據(jù)層收集和整理各來源的核心期刊相關(guān)數(shù)據(jù),信息層采用元數(shù)據(jù)和本體詞匯對期刊相關(guān)數(shù)據(jù)及其特征進(jìn)行語義規(guī)范描述,知識層基于本體和關(guān)聯(lián)數(shù)據(jù)技術(shù),從語義上揭示期刊信息各概念之間的關(guān)系,實(shí)現(xiàn)了中外文核心期刊信息的多維展示、關(guān)聯(lián)發(fā)現(xiàn)和多維統(tǒng)計(jì)分析,并進(jìn)一步分析其在采訪決策和個(gè)性化服務(wù)中的應(yīng)用前景。

關(guān)鍵詞:核心期刊;多源信息;深度聚合;知識組織

1引言

期刊是高校圖書館館藏文獻(xiàn)資源建設(shè)和服務(wù)的重點(diǎn)。在期刊采訪、管理和服務(wù)等過程中,其相關(guān)信息(如收錄情況、影響力、分區(qū)、開放性、館藏和利用情況等)多而雜,且來源廣泛,具有無序性、獨(dú)立性、多源性和分散性,給讀者的發(fā)現(xiàn)和利用帶來困難,也不便于對利用情況進(jìn)行分析。為方便讀者利用,進(jìn)而指導(dǎo)高校圖書館館藏期刊資源的建設(shè),有必要對期刊的相關(guān)信息進(jìn)行整合。邱均平等[1]認(rèn)為隨著讀者需求的提升,對數(shù)字資源進(jìn)行深度聚合是數(shù)字資源建設(shè)發(fā)展到一定階段的必然要求。童旺宇[2]研究了圖書相關(guān)信息的聚合,并指出其可為用戶提供決策支持服務(wù)。對多源期刊信息進(jìn)行聚合能夠使期刊相關(guān)信息更為集中、有序,從而更好地為讀者提供期刊信息服務(wù),對其特征和利用行為的分析可為進(jìn)一步優(yōu)化館藏期刊資源的配置提供決策支持。

2相關(guān)概念

2.1核心期刊及其信息的多源性

核心期刊是指學(xué)術(shù)水平較高的期刊,或某一學(xué)科中高水平、高影響力的期刊。英國文獻(xiàn)學(xué)家布拉德福在1931年首先揭示了文獻(xiàn)集中與分散規(guī)律,發(fā)現(xiàn)某時(shí)期某學(xué)科1/3的論文刊登在3.2%的期刊上[3];1971年,SCI創(chuàng)始人加菲爾德統(tǒng)計(jì)了參考文獻(xiàn)在期刊上的分布情況,發(fā)現(xiàn)24%的引文出現(xiàn)在1.25%的期刊上[4]。這些研究均表明期刊存在“核心效應(yīng)”,進(jìn)而衍生出“核心期刊”的概念,同時(shí)在國內(nèi)外產(chǎn)生了多種核心期刊遴選體系。國內(nèi)核心期刊遴選體系有中文核心期刊要目總覽(北京大學(xué))、中國科學(xué)引文數(shù)據(jù)庫核心庫(中國科學(xué)院)、中文社會科學(xué)引文索引(南京大學(xué))、中國科技期刊引證報(bào)告(中國科學(xué)技術(shù)信息研究所)。國際核心期刊遴選體系主要有SCIE(收錄理科工科類)、SSCI(收錄經(jīng)濟(jì)管理人文類)、A&HCI(收錄藝術(shù)與人文科學(xué)類)、EI(收錄工科及少量管理類)等。期刊多源信息是指期刊的相關(guān)信息來源于不同的信息平臺,其相關(guān)信息包括期刊刊名元數(shù)據(jù)、收錄信息、分區(qū)信息、影響因子、開放性等(如圖1所示),針對具體的高校機(jī)構(gòu)還包括館藏和機(jī)構(gòu)成果等,這些信息分散于不同的信息環(huán)境中。

2.2信息聚合

聚合原意為將分散的個(gè)體聚集在一起。在互聯(lián)網(wǎng)領(lǐng)域,信息聚合是指挑選、分析互聯(lián)網(wǎng)上的海量信息并根據(jù)內(nèi)容進(jìn)行歸類,進(jìn)而為用戶提供優(yōu)質(zhì)有用的更具針對性的信息[5]。本研究中的核心期刊信息聚合是指針對高校的教學(xué)和科研需求,聚合各來源多維度的期刊相關(guān)數(shù)據(jù),展示期刊的整體概貌,方便讀者發(fā)現(xiàn)和甄別自己感興趣的期刊,同時(shí)為圖書館期刊采訪提供決策支持。

3核心期刊多源信息聚合模式

核心期刊相關(guān)信息類型多樣、來源廣泛且關(guān)聯(lián)性強(qiáng)。對核心期刊相關(guān)信息的聚合不僅要收集期刊各個(gè)維度的數(shù)據(jù),而且要對數(shù)據(jù)特征進(jìn)行語義描述,反映其知識關(guān)聯(lián),以對期刊相關(guān)信息進(jìn)行有效揭示。因此,根據(jù)數(shù)據(jù)來源和信息組織形式,期刊相關(guān)信息可從數(shù)據(jù)層、信息層和知識層3個(gè)層次進(jìn)行聚合,在此基礎(chǔ)上提供創(chuàng)新應(yīng)用服務(wù)。聚合模式如圖2所示:數(shù)據(jù)層聚合是對多來源的期刊相關(guān)數(shù)據(jù)進(jìn)行收集和整理。數(shù)據(jù)收集是依據(jù)核心期刊收錄標(biāo)準(zhǔn)收集期刊的描述性元數(shù)據(jù),以及與期刊相關(guān)的影響因子、分區(qū)、收錄情況、開放特征、館藏特征、機(jī)構(gòu)成果、評價(jià)等數(shù)據(jù);數(shù)據(jù)整理是對所收集的期刊數(shù)據(jù)進(jìn)行去重、歸并、規(guī)范化和數(shù)據(jù)增強(qiáng)等數(shù)據(jù)清洗工作,如期刊分類整理、重復(fù)數(shù)據(jù)合并、字段格式規(guī)范、缺失數(shù)據(jù)補(bǔ)充等,以保證期刊相關(guān)數(shù)據(jù)的完整性和準(zhǔn)確性。信息層聚合是對期刊相關(guān)數(shù)據(jù)及其特征進(jìn)行語義規(guī)范描述,以實(shí)現(xiàn)機(jī)器可理解。圖書館領(lǐng)域常用的語義元數(shù)據(jù)描述規(guī)范有DC、MARC、BIBO、FRBR和PRISM等本體詞匯。知識層聚合是對事物的本質(zhì)及事物間的關(guān)系進(jìn)行揭示和控制。對期刊信息進(jìn)行知識層聚合是對期刊所涉及的相關(guān)概念及其關(guān)系進(jìn)行有效關(guān)聯(lián),并進(jìn)行語義描述。知識層聚合涉及的相關(guān)技術(shù)有語義網(wǎng)、本體、關(guān)聯(lián)數(shù)據(jù)和敘詞(SKOS)等[6-7],可從多角度揭示期刊信息的知識內(nèi)容和相互關(guān)系?;谝陨?個(gè)層次的期刊相關(guān)信息聚合所提供的創(chuàng)新應(yīng)用服務(wù)有多視角期刊信息的分面導(dǎo)航、關(guān)聯(lián)發(fā)現(xiàn)、多維統(tǒng)計(jì)分析、定制與推薦,以及為期刊采訪提供決策支持等。

4核心期刊多源信息聚合關(guān)鍵技術(shù)分析

核心期刊多源信息聚合涉及的關(guān)鍵技術(shù)主要包括多源信息的ETL(Extract-Trans-form-Load,抽?。D(zhuǎn)換-加載)、期刊信息知識組織的本體概念模型,以及期刊相關(guān)概念屬性元數(shù)據(jù)語義描述。

4.1期刊多源信息的ETL

期刊多源信息的ETL是指從各數(shù)據(jù)源抽取所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按預(yù)定的數(shù)據(jù)格式加載到系統(tǒng)中。需要抽取的期刊信息數(shù)據(jù)類型、來源和收集數(shù)據(jù)要求如下表所示:表中各種類型的期刊相關(guān)信息可從相應(yīng)的來源網(wǎng)站下載或要求數(shù)據(jù)庫廠商提供,由于不同來源的數(shù)據(jù)格式不一致,需要對數(shù)據(jù)進(jìn)行清洗。期刊相關(guān)信息的清洗工作主要包括數(shù)據(jù)歸并、數(shù)據(jù)規(guī)范化和數(shù)據(jù)增強(qiáng)。①期刊數(shù)據(jù)歸并,即對各來源的期刊相關(guān)數(shù)據(jù)與期刊總庫做唯一性匹配。由于各種來源期刊的ISSN號和刊名可能與總庫中的信息不一致(如刊名和ISSN號變更、書寫方式差異等)而無法匹配,需要通過程序?qū)Ω鱽碓聪嚓P(guān)信息進(jìn)行唯一性檢測或人工整理,使其與總庫的期刊相匹配。這是一項(xiàng)基礎(chǔ)性工作。②期刊數(shù)據(jù)規(guī)范化,即對各個(gè)字段的格式進(jìn)行規(guī)范統(tǒng)一,如ISSN號統(tǒng)一為XXXX-XXXX格式,年份統(tǒng)一為4位等。③期刊數(shù)據(jù)增強(qiáng),即當(dāng)有些信息不全時(shí),需從不同的來源進(jìn)行元數(shù)據(jù)補(bǔ)充,甚至人工錄入。

4.2期刊信息知識組織的本體概念模型

期刊信息知識組織的目標(biāo)是對期刊相關(guān)信息進(jìn)行整序,使知識存儲有序化、易獲取。本研究對期刊相關(guān)信息的知識組織是基于概念層次而非知識內(nèi)容層次,采取語義網(wǎng)和本體(Ontology)技術(shù)相結(jié)合的方式建模。期刊相關(guān)信息知識組織的核心是建立本體概念模型,模型主要涉及期刊相關(guān)概念、概念的屬性及概念之間的相互關(guān)系。根據(jù)上表中期刊相關(guān)信息所包含的內(nèi)容,其可定義的概念類有期刊母體、期刊文章、科研機(jī)構(gòu)、科研人物,以及期刊母體的屬性概念子類:影響因子、期刊分區(qū)、收錄來源、開放期刊、館藏特征和利用情況。期刊相關(guān)信息本體概念模型如圖3所示,概念和子概念以節(jié)點(diǎn)表示,各概念之間的關(guān)系以邊表示,概念之間定義了關(guān)系,如科研人物是科研機(jī)構(gòu)的成員(memberOf),卷期是期刊母體的部分(isPartOf),收錄來源是期刊母體的子屬性(subPropertyOf)等,同時(shí)這些關(guān)系也是互逆的,各概念彼此之間構(gòu)成網(wǎng)狀關(guān)聯(lián)結(jié)構(gòu),一個(gè)概念可以關(guān)聯(lián)到其他各個(gè)概念。

4.3期刊相關(guān)概念屬性元數(shù)據(jù)語義描述

期刊相關(guān)信息本體概念模型建立了期刊各概念之間的相互關(guān)聯(lián),其概念、關(guān)系和屬性要使機(jī)器可理解,需借鑒本體詞匯(如bibo、fa-bio、foaf、dcterms、rdfs、owl等)進(jìn)行語義規(guī)范。對于擴(kuò)展的詞匯,本研究自定義擴(kuò)展詞匯的命名空間為journal。概念和關(guān)系的語義規(guī)范描述詞匯已定義(如圖3所示),下面對各概念的屬性元數(shù)據(jù)進(jìn)行語義規(guī)范描述。期刊母體類可用bibo:Journal本體詞匯描述,其數(shù)據(jù)屬性為刊名(dc:title)、歷史刊名(dcterms:alternative)、ISSN(bibo:issn)、語種(dc:language)、出版頻次(dcterms:accrualPe-riodicity)、創(chuàng)刊年(prism:creationDate)、簡介(dc:description)、主題分類(dc:subject);對象屬性有官網(wǎng)地址(prism:url)。機(jī)構(gòu)成果為機(jī)構(gòu)科研人物所發(fā)表的期刊文章,概念類有科研人物(foaf:Person)、科研機(jī)構(gòu)(foaf:Organization)、卷期(bibo:Issue)和期刊文章(fabio:JournalArticle),其數(shù)據(jù)屬性主要有題名(dc:title、dcterms:alternative)、年(prism:year)、卷(prism:volume)、期(prism:issue)、頁碼(prism:page)、關(guān)鍵詞(prism:key-word)、摘要(dcterms:abstract),對象屬性有DOI(bibo:doi)。卷期類與期刊母體為屬于與被屬于的關(guān)系(isPartOf/hasPart),期刊文章類與卷期類也是屬于與被屬于的關(guān)系,期刊文章由科研人物創(chuàng)建(creator),科研人物為科研機(jī)構(gòu)的成員(memberOf)。期刊母體相關(guān)屬性類的概念采用自定義詞匯集(journal),其具有的子屬性關(guān)系(rdfs:sub-PropertyOf)的類有收錄來源(journal:Source)、影響力(journal:Impact)、分區(qū)(journal:Zone)、開放特征(journal:Open)、館藏特征(journal:Collec-tion)和期刊利用(journal:Utilization)。子屬性類的數(shù)據(jù)屬性有年份(prism:year)、月份(prism:month)、主題分類(dc:subject)、收錄類型(jour-nal:CollectionType)、分區(qū)類型(journal:Zone-Type)、Top期刊(journal:Top)、被引次數(shù)(jour-nal:TotalCites)、影響因子(journal:ImpactFac-tor)、特征因子(journal:Eigenfactor)、請求量(journal:NumberOfRequests)、來源數(shù)據(jù)庫(jour-nal:DataBase)、網(wǎng)址(prism:url)、OA期刊類型(journal:OpenType)。以上從語義上定義了期刊相關(guān)信息的概念類、屬性及其關(guān)系,通過各概念之間的語義關(guān)聯(lián)使期刊相關(guān)信息的各概念構(gòu)成了一種網(wǎng)狀關(guān)聯(lián)結(jié)構(gòu),從而便于進(jìn)行知識推理,從任意維度出發(fā)發(fā)現(xiàn)更多有價(jià)值的信息,便于期刊信息的深度發(fā)掘。

5核心期刊多源信息聚合的應(yīng)用

基于上述核心期刊相關(guān)信息聚合模式,本研究收集整理了核心期刊的7類相關(guān)信息:最新收錄、影響因子、分區(qū)、開放特征,以及某單位圖書館的期刊館藏、機(jī)構(gòu)成果和期刊利用數(shù)據(jù),實(shí)現(xiàn)核心期刊信息導(dǎo)航展示與多維分類統(tǒng)計(jì)、期刊多維信息展示與關(guān)聯(lián)發(fā)現(xiàn),并對其在期刊采訪決策和個(gè)性化服務(wù)中的應(yīng)用前景進(jìn)行分析。

5.1核心期刊信息導(dǎo)航展示與多維分類統(tǒng)計(jì)

用戶可以從收錄來源、分區(qū)類型和年份等多個(gè)維度統(tǒng)計(jì)和展示各個(gè)學(xué)科類別或分區(qū)的核心期刊數(shù)量、OA刊數(shù)量、館藏刊數(shù)量、友好刊數(shù)量(本機(jī)構(gòu)成員發(fā)文的期刊),然后再導(dǎo)航到各類期刊的列表。一方面,可方便用戶找到自己感興趣的各種特征的期刊;另一方面可方便采訪人員了解各學(xué)科的核心期刊分布情況。

5.2核心期刊多維信息展示與關(guān)聯(lián)發(fā)現(xiàn)

期刊相關(guān)信息各概念之間的語義關(guān)聯(lián)使具體期刊的相關(guān)信息發(fā)現(xiàn)更為便捷。一方面可以從多個(gè)維度聚合期刊相關(guān)信息,將期刊各維度的信息展示出來,如對于某一具體期刊可聚合期刊元數(shù)據(jù),各種類型各年份的收錄、分區(qū)、影響因子信息、期刊的機(jī)構(gòu)發(fā)文、電子及紙本館藏信息、期刊利用情況等;另一方面,期刊各概念關(guān)聯(lián)層次的多級性使用戶可以發(fā)現(xiàn)更多有價(jià)值的信息,同時(shí)可關(guān)聯(lián)到同學(xué)科、同分區(qū)或相同收錄來源的相關(guān)期刊等。

5.3期刊采訪決策

期刊相關(guān)信息聚合后便可從多個(gè)角度對期刊進(jìn)行統(tǒng)計(jì)和分析,為圖書館期刊采訪提供決策支持。高校圖書館在做期刊采訪決策時(shí),需要對期刊的影響力、利用情況、學(xué)科分區(qū)、館藏特征、友好性和開放性等進(jìn)行分析[8]。從聚合的核心期刊相關(guān)信息中可統(tǒng)計(jì)出本館已訂購各學(xué)科哪些核心電子刊、紙本刊;已訂購的每種核心期刊在本校的利用情況、使用成本;各數(shù)據(jù)庫中的期刊利用率情況;各學(xué)科中哪些核心期刊未訂購;各學(xué)科未訂購的核心期刊的影響力、開放性、友好性、來源數(shù)據(jù)庫情況。這些都是期刊采訪需要了解的信息,其統(tǒng)計(jì)和分析結(jié)果可為期刊采訪提供決策支持。

5.4期刊信息定制、推薦與服務(wù)融合

在數(shù)字圖書館個(gè)性化服務(wù)中,期刊相關(guān)信息的定制是指用戶自定義期刊相關(guān)主題、刊名、作者、收錄來源和分區(qū)等組合的檢索條件,系統(tǒng)自動(dòng)把檢索到的期刊或文章最新結(jié)果集提供給用戶,使用戶更加及時(shí)便捷地獲取自己感興趣的期刊相關(guān)信息。期刊信息的推薦是指根據(jù)用戶的發(fā)文、借閱或檢索行為等,把與讀者行為相關(guān)的期刊信息、期刊目次或期刊文章推薦給用戶。期刊相關(guān)信息服務(wù)融合是指將期刊數(shù)據(jù)服務(wù)融入其他平臺,便于用戶發(fā)現(xiàn)和利用。如融入圖書館學(xué)科信息服務(wù)系統(tǒng),提供學(xué)科期刊信息服務(wù);融入微信、圖書館個(gè)性化服務(wù)平臺,便于讀者了解期刊相關(guān)信息和投稿,也可開放的關(guān)聯(lián)數(shù)據(jù),方便第三方利用期刊信息。

結(jié)語

期刊相關(guān)信息的聚合使分散異構(gòu)的期刊信息有序化。數(shù)據(jù)層從各來源采集期刊相關(guān)信息,對其進(jìn)行數(shù)據(jù)清洗后載入系統(tǒng),其中大部分工作可通過程序自動(dòng)完成。信息層和知識層對期刊相關(guān)信息概念化、語義化和關(guān)聯(lián)化。期刊相關(guān)信息深度聚合使讀者發(fā)現(xiàn)和利用期刊更為便捷,在對期刊進(jìn)行多維統(tǒng)計(jì)分析的基礎(chǔ)上,可為高校圖書館期刊采訪提供決策支持。

參考文獻(xiàn):

[1]邱均平,方國平.高校圖書館語義化館藏資源深度聚合模式及其應(yīng)用研究[J].圖書館學(xué)研究,2014(21):64-71.

[2]童旺宇.OPAC系統(tǒng)中面向用戶決策的圖書信息多源融合[J].圖書館工作與研究,2017(6):93-100.

[3]陳勤.布拉德福定律在期刊計(jì)量管理中的若干應(yīng)用[J].圖書情報(bào)工作,1997(12):12-14,23.

[4]賴茂生,屈鵬,趙康.論期刊評價(jià)的起源和核心要素[J].重慶大學(xué)學(xué)報(bào)(社會科學(xué)版),2009(3):67-72.

[5]網(wǎng)絡(luò)聚合[EB/OL].[2019-07-01].

[6]張建紅.基于語義關(guān)聯(lián)的海量數(shù)字資源知識聚合與服務(wù)研究[J].圖書館工作與研究,2016(8):44-47.

[7]鮮國建,趙瑞雪,孟憲學(xué),等.基于知識組織體系的多維語義關(guān)聯(lián)數(shù)據(jù)構(gòu)建研究[J].?dāng)?shù)字圖書館論壇,2014(3):11-18.

[8]周理盛,尚永紅,李永鋒,等.中南林業(yè)科技大學(xué)高水平科研論文引文分析———基于SCI/SSCI/A&HCI[J].中南林業(yè)科技大學(xué)學(xué)報(bào)(社會科學(xué)版),2014(4):182-185.

作者:周理盛 熊擁軍 單位:中南林業(yè)科技大學(xué)圖書館

相關(guān)熱門標(biāo)簽