公務(wù)員期刊網(wǎng) 論文中心 正文

中國(guó)區(qū)域發(fā)明者流動(dòng)數(shù)據(jù)挖掘探究

前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了中國(guó)區(qū)域發(fā)明者流動(dòng)數(shù)據(jù)挖掘探究范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

中國(guó)區(qū)域發(fā)明者流動(dòng)數(shù)據(jù)挖掘探究

[摘要]追蹤人才流動(dòng)軌跡、探究人才流動(dòng)規(guī)律備受關(guān)注,專(zhuān)利發(fā)明者可為人才流動(dòng)研究奠定數(shù)據(jù)基礎(chǔ).基于中國(guó)知識(shí)產(chǎn)權(quán)局2000—2009年公開(kāi)的發(fā)明申請(qǐng)專(zhuān)利,設(shè)計(jì)了發(fā)明者姓名消歧算法,挖掘了流動(dòng)發(fā)明者信息,探討了東部、東北、中部、西部四大區(qū)域發(fā)明者流動(dòng)現(xiàn)狀及趨勢(shì).研究表明,文章中使用的算法具有合理性,可有效提取中國(guó)專(zhuān)利的流動(dòng)發(fā)明者.

[關(guān)鍵詞]專(zhuān)利統(tǒng)計(jì);姓名消歧;發(fā)明者流動(dòng);區(qū)域;中國(guó)

一、引言

人才是建設(shè)創(chuàng)新型國(guó)家的中堅(jiān)力量,其流動(dòng)將導(dǎo)致知識(shí)的轉(zhuǎn)移和溢出[1].日益頻繁的人才流動(dòng)現(xiàn)象,加快了不同創(chuàng)新主體對(duì)新知識(shí)與技能的獲取、吸收和整合,帶動(dòng)了其創(chuàng)新水平和能力的變化.周德祿[2]指出,人才流動(dòng)實(shí)現(xiàn)了人力資源的再配置,建立健全人才流動(dòng)機(jī)制以促進(jìn)人才有效流動(dòng)是獲得創(chuàng)新收益的基本路徑.故追蹤人才流動(dòng)軌跡、探究人才流動(dòng)規(guī)律具有重要的理論和實(shí)踐意義.但個(gè)體數(shù)據(jù)的可獲得性制約著該研究領(lǐng)域的發(fā)展.專(zhuān)利發(fā)明者可為探析人才流動(dòng)奠定數(shù)據(jù)基礎(chǔ).通過(guò)梳理發(fā)明者流動(dòng)的相關(guān)研究,朱容輝等[3]指出,學(xué)術(shù)界就發(fā)明者流動(dòng)概念的界定基本達(dá)成共識(shí),認(rèn)為發(fā)明者流動(dòng)即發(fā)明者在不同組織中任職,可通過(guò)追蹤同一發(fā)明者連續(xù)擁有專(zhuān)利的申請(qǐng)(或權(quán)利)人的變化進(jìn)行推斷.但專(zhuān)利發(fā)明者未有唯一化標(biāo)識(shí),故對(duì)發(fā)明者姓名進(jìn)行消歧是考察發(fā)明者流動(dòng)的先決條件.學(xué)者們多基于美國(guó)專(zhuān)利與商標(biāo)局?jǐn)?shù)據(jù)庫(kù)(USPTO),或歐洲專(zhuān)利局?jǐn)?shù)據(jù)庫(kù)(EPO),探討了該問(wèn)題,且為滿足大規(guī)模數(shù)據(jù)分析的需要,啟發(fā)式算法逐漸應(yīng)用.因語(yǔ)言、文化等差異,已有的姓名消歧算法對(duì)歐美等西方國(guó)家發(fā)明者的識(shí)別效果較好,對(duì)中國(guó)等亞洲國(guó)家發(fā)明者的識(shí)別效果有待改善.借鑒現(xiàn)有研究成果,本文基于2000—2009年中國(guó)知識(shí)產(chǎn)權(quán)局(CNIPA)公開(kāi)的發(fā)明專(zhuān)利信息,對(duì)發(fā)明者流動(dòng)數(shù)據(jù)進(jìn)行挖掘.后續(xù)結(jié)構(gòu)如下:第二部分描述了數(shù)據(jù)來(lái)源并設(shè)計(jì)了流動(dòng)發(fā)明者的識(shí)別算法;第三部分挖掘了流動(dòng)發(fā)明者的信息,并探討了區(qū)域?qū)用娴陌l(fā)明者流動(dòng)現(xiàn)狀及趨勢(shì);第四部分闡述了本文的主要研究結(jié)論與研究不足.

二、數(shù)據(jù)與研究方法

使用CNIPA數(shù)據(jù)庫(kù)2000—2009年公開(kāi)的發(fā)明專(zhuān)利,在根據(jù)專(zhuān)利已有信息消除發(fā)明者姓名歧義的基礎(chǔ)上,對(duì)中國(guó)區(qū)域間的發(fā)明者流動(dòng)情況進(jìn)行了實(shí)證分析.

(一)發(fā)明者姓名消歧

1.提取專(zhuān)利關(guān)鍵字段.葉作亮等[4]將專(zhuān)利文獻(xiàn)信息劃分為類(lèi)值與文本兩大屬性.前者以字符形式展現(xiàn),便于數(shù)據(jù)分析,包括技術(shù)分類(lèi)號(hào)、發(fā)明者等.后者以一篇或一段文本出現(xiàn),數(shù)據(jù)處理過(guò)程較為復(fù)雜,包括專(zhuān)利名稱(chēng)、摘要、全文等.借鑒現(xiàn)有文獻(xiàn)中用于發(fā)明者姓名消歧的專(zhuān)利關(guān)鍵字段并考慮數(shù)據(jù)的可操作性,本文選取公開(kāi)(公告)日、發(fā)明(設(shè)計(jì))人、主分類(lèi)號(hào)、地址4個(gè)字段.其中,公開(kāi)(公告)日可用于追蹤發(fā)明者流動(dòng)產(chǎn)生的時(shí)間,發(fā)明(設(shè)計(jì))人提供了參與技術(shù)創(chuàng)新的人員署名情況,主分類(lèi)號(hào)提供了專(zhuān)利所屬技術(shù)領(lǐng)域的信息,地址可用于追蹤發(fā)明者的流動(dòng)方向.需指出,本文搜集的專(zhuān)利數(shù)據(jù)按公開(kāi)(公告)日排序,故以該日期而非申請(qǐng)日對(duì)發(fā)明者的流動(dòng)時(shí)間進(jìn)行推斷.2.構(gòu)建發(fā)明者—專(zhuān)利實(shí)例.提取專(zhuān)利中的公開(kāi)(公告)日、發(fā)明(設(shè)計(jì))人、主分類(lèi)號(hào)、地址4個(gè)字段,并基于發(fā)明(設(shè)計(jì))人構(gòu)建了發(fā)明者—專(zhuān)利實(shí)例(inventorGpatentinstances)[5],即根據(jù)專(zhuān)利發(fā)明者署名將一條專(zhuān)利拆分成若干條專(zhuān)利.3.關(guān)鍵字段相似度計(jì)算首先,計(jì)算了發(fā)明者的相似度,由兩條專(zhuān)利擁有共同發(fā)明者姓名數(shù)量占合作發(fā)明者姓名數(shù)量的比值進(jìn)行度量,見(jiàn)式(1).SIMIt=(Mi∩Nj)(Mi∪Nj)(1)式中,SIMI1代表發(fā)明者的相似度,Mi、Nj代表專(zhuān)利i、j擁有合作者姓名的集合.其次,計(jì)算了主分類(lèi)號(hào)的相似度,通過(guò)比對(duì)兩條專(zhuān)利主分類(lèi)號(hào)的前三位進(jìn)行測(cè)度.若前三位完全相等,則相似度SIMI2取值為1,否則為0.最后,基于最小編輯距離(MinimumEditDistance)算法[6]計(jì)算了地址相似度.兩個(gè)專(zhuān)利地址字段的最小編輯距離,是指將一專(zhuān)利地址字段轉(zhuǎn)換為另一專(zhuān)利地址地段所需的最小編輯次數(shù).編輯距離越小,表明兩個(gè)字符串越相似;反之,越不相似.4.關(guān)鍵字段的權(quán)重賦予綜合相似度的計(jì)算公式見(jiàn)下:SIMIt=∑3i=1wi×SIMIi(2)式中,wi代表權(quán)重,SIMIt代表綜合相似度.若SIMIt大于一特定閾值,則認(rèn)為是同一發(fā)明者;否則,不是同一發(fā)明者.基于人工識(shí)別的發(fā)明者姓名消歧信息[7]為各字段賦予了權(quán)重,見(jiàn)式(3):SIMIt=2×SIMI1+0.1×SIMI2+1.5×SIMI3(3)

(二)發(fā)明者流動(dòng)挖掘

在為發(fā)明者賦予唯一標(biāo)識(shí)碼的基礎(chǔ)上,進(jìn)一步挖掘了中國(guó)四大區(qū)域即東部、東北、中部和西部的發(fā)明者流動(dòng)信息,東部包含京津冀等省區(qū),東北包含遼吉黑,中部包含晉皖贛等省區(qū),西部包含陜甘寧等省區(qū).此時(shí),專(zhuān)利關(guān)鍵字段共計(jì)有6個(gè),分別是唯一標(biāo)識(shí)碼、發(fā)明者姓名、公開(kāi)(公告)日、發(fā)明(設(shè)計(jì))人、技術(shù)分類(lèi)號(hào)和地址.因中國(guó)專(zhuān)利文獻(xiàn)提供信息的有限性,本文使用第一申請(qǐng)人的地址信息表征發(fā)明者的隸屬地區(qū),并通過(guò)追蹤同一發(fā)明者在不同時(shí)期不同地點(diǎn)申請(qǐng)的專(zhuān)利對(duì)其是否發(fā)生流動(dòng)進(jìn)行研判,流動(dòng)時(shí)間為流入新地區(qū)第一個(gè)申請(qǐng)專(zhuān)利的公開(kāi)時(shí)間.例如,張三在陜西省申請(qǐng)最后一個(gè)專(zhuān)利的公開(kāi)年份為2000年,后在安徽省申請(qǐng)第一個(gè)專(zhuān)利的公開(kāi)年份為2003年,則認(rèn)為張三的流動(dòng)方向?yàn)槲鞑恐林胁?流動(dòng)時(shí)間為2003年.據(jù)此,篩選了CNIPA中四大區(qū)域間的流動(dòng)發(fā)明者及其對(duì)應(yīng)的專(zhuān)利信息.

三、分析結(jié)果

(一)四大區(qū)域的發(fā)明者流動(dòng)分布

圖1展示了中國(guó)東部(E)、東北(NE)、中部(M)、西部(W)四大區(qū)域的發(fā)明者流動(dòng)分布情況.其中,標(biāo)簽“E→W”代表發(fā)明者從東部地區(qū)流向西部地區(qū),標(biāo)簽“NE→E”代表發(fā)明者從東北地區(qū)流向東部地區(qū),其他標(biāo)簽不再贅述.結(jié)果顯示,隨著時(shí)間推移,四大區(qū)域的發(fā)明者流動(dòng)呈明顯增長(zhǎng)態(tài)勢(shì).此外,中部、西部和東北地區(qū)的發(fā)明者向東部地區(qū)流動(dòng)愈加頻繁,東部地區(qū)發(fā)明者流向中部、西部、東北地區(qū)的趨勢(shì)呈現(xiàn),但中部、西部、東北地區(qū)之間的發(fā)明者流動(dòng)較為薄弱.

(二)四大區(qū)域的發(fā)明者流動(dòng)差值

進(jìn)一步的,本文計(jì)算了四大區(qū)域的發(fā)明者流入與流出差值,以反映不同區(qū)域?qū)θ瞬诺奈捅A裟芰?見(jiàn)圖2.結(jié)果顯示,整體而言,東部地區(qū)的發(fā)明者流動(dòng)表現(xiàn)為順差,即發(fā)明者的流入數(shù)量高于流出數(shù)量,表明該地區(qū)對(duì)人才有較強(qiáng)的吸引和保留能力;中部、西部和東北地區(qū)的發(fā)明者流動(dòng)表現(xiàn)為逆差,即發(fā)明者的流出數(shù)量高于流入數(shù)量,表明這三個(gè)地區(qū)對(duì)人才吸引和保留能力較弱.

四、總結(jié)

(一)結(jié)論

本文在借鑒現(xiàn)有研究成果并結(jié)合中國(guó)專(zhuān)利數(shù)據(jù)特征的基礎(chǔ)上,使用2000—2009年CNIPA公開(kāi)的中國(guó)發(fā)明專(zhuān)利數(shù)據(jù),設(shè)計(jì)了發(fā)明者姓名消歧算法,挖掘了流動(dòng)發(fā)明者信息,分析了東部、東北、中部、西部四大區(qū)域的發(fā)明者流動(dòng)態(tài)勢(shì).研究發(fā)現(xiàn):(1)各區(qū)域的發(fā)明者流動(dòng)愈加頻繁;(2)東部地區(qū)發(fā)明者流向其他區(qū)域的趨勢(shì)呈現(xiàn),但東北、中部、西部之間的發(fā)明者交互較為薄弱;(3)與其他區(qū)域相比,東部地區(qū)對(duì)發(fā)明者的吸引和保留能力較強(qiáng).此結(jié)果與先前研究一致[8G9],表明本文設(shè)計(jì)的算法對(duì)中國(guó)發(fā)明者流動(dòng)的挖掘具有合理性。

(二)研究不足

本研究存在一定局限性.1.流動(dòng)界定.在中國(guó)專(zhuān)利文獻(xiàn)中,未提供每位發(fā)明者的地理位置,未提供發(fā)明者與申請(qǐng)人之間的隸屬關(guān)系,且地址字段僅與第一申請(qǐng)人相對(duì)應(yīng).本文使用第一申請(qǐng)人的地址信息表征發(fā)明者的隸屬地區(qū),并通過(guò)追蹤同一發(fā)明者在不同時(shí)期不同地點(diǎn)申請(qǐng)的專(zhuān)利對(duì)其是否發(fā)生流動(dòng)進(jìn)行推斷,故基于中國(guó)專(zhuān)利數(shù)據(jù)的發(fā)明者流動(dòng)挖掘不僅包含了因發(fā)明者空間地理位置變化導(dǎo)致的流動(dòng).2.算法設(shè)計(jì).受限于數(shù)據(jù)分析的客觀條件,本文僅從中國(guó)專(zhuān)利文獻(xiàn)中提取了發(fā)明(設(shè)計(jì))人、主分類(lèi)號(hào)、地址三個(gè)字段用于發(fā)明者姓名消歧.而專(zhuān)利文獻(xiàn)包含了豐富的信息,如專(zhuān)利摘要、全文等,對(duì)此類(lèi)文本字段進(jìn)行數(shù)據(jù)挖掘并納入綜合相似度的求解因子中,將有助于改善中國(guó)發(fā)明者的姓名消歧效果.此外,融合多源異構(gòu)數(shù)據(jù)進(jìn)行姓名消歧并補(bǔ)足發(fā)明者個(gè)體信息,可豐富發(fā)明者流動(dòng)的相關(guān)研究。

作者:朱容輝 劉樹(shù)林 涂文杰 單位:西安交通大學(xué)管理學(xué)院