公務(wù)員期刊網(wǎng) 論文中心 正文

關(guān)聯(lián)分析下的房產(chǎn)檔案信息管理

前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了關(guān)聯(lián)分析下的房產(chǎn)檔案信息管理范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

關(guān)聯(lián)分析下的房產(chǎn)檔案信息管理

關(guān)鍵詞:高校房產(chǎn)檔案;關(guān)聯(lián)分析;Apriori算法

高校房產(chǎn)檔案種類繁多,時(shí)間跨度長(zhǎng),載體多樣,在立卷和著錄階段忽視了案卷之間隱含的業(yè)務(wù)聯(lián)系,使得數(shù)據(jù)信息呈孤立狀態(tài),難以挖掘出檔案之間潛在的信息,不利于用戶查詢使用。本文將檔案信息關(guān)聯(lián)分析技術(shù)應(yīng)用于高校房產(chǎn)檔案管理,嘗試解決檔案信息孤立分散的問(wèn)題,充分挖掘檔案之間的隱含聯(lián)系,對(duì)檔案進(jìn)行深層次的二次開(kāi)發(fā)利用。

一、關(guān)聯(lián)規(guī)則分析和Apriori算法

關(guān)聯(lián)分析又稱為關(guān)聯(lián)規(guī)則挖掘,是在信息載體中查找存在于項(xiàng)目集合之間的頻繁模式、相關(guān)性或因果結(jié)構(gòu)。Apriori算法是最具影響力的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法之一。該算法的基本思想是利用迭代的方法找出數(shù)據(jù)值中頻繁出現(xiàn)的集合,從這些集合中發(fā)現(xiàn)它們之間的關(guān)聯(lián)規(guī)則。一般而言Apriori算法使用支持度作為判斷頻繁項(xiàng)集的標(biāo)準(zhǔn)。如果將Arpriori算法用到房產(chǎn)檔案管理中,檔案中有教職工購(gòu)買房改房資料、申請(qǐng)貨幣補(bǔ)貼資料、基建資料、權(quán)籍資料等,這些資料都可以看成一個(gè)個(gè)的項(xiàng)目集合,可以用關(guān)聯(lián)分析找出所有集合中頻繁出現(xiàn)的集合,設(shè)定一個(gè)支持度閾值α,出現(xiàn)頻率高于閾值α的集合即是我們要找的頻繁集合。算法用逐層迭代的方法實(shí)現(xiàn)。第一步,根據(jù)算法對(duì)整個(gè)數(shù)據(jù)集進(jìn)行掃描,獲取所有數(shù)據(jù)集,此時(shí)還未計(jì)算頻繁項(xiàng)集。第二步,計(jì)算各數(shù)據(jù)集的支持度,減除支持度低于閾值α的項(xiàng)集,所保留的項(xiàng)集為頻繁k項(xiàng)集。如果得到的k項(xiàng)集為空,則返回頻繁k-1項(xiàng)集的集合作為算法結(jié)果。如果得到的k項(xiàng)集只有一項(xiàng),則直接返回頻繁k項(xiàng)集的集合作為算法結(jié)果。否則,令k項(xiàng)集為k+1項(xiàng)集,返回第二步,如此往復(fù)。最終得到所有頻繁項(xiàng)集,也就是在所歸檔的房產(chǎn)檔案中出現(xiàn)最頻繁的文檔資料。第三步,找出k項(xiàng)頻繁集各項(xiàng)之間的關(guān)聯(lián)。例如,教職工購(gòu)買公有住房審批表的出現(xiàn)極有可能伴隨著購(gòu)房買賣契約的出現(xiàn),購(gòu)房票據(jù)也應(yīng)該隨之一起出現(xiàn);或者學(xué)?;?xiàng)目資料的出現(xiàn)肯定會(huì)伴隨著項(xiàng)目審批資料等等。各頻繁項(xiàng)集彼此之間同時(shí)發(fā)生的概率就是它們的置信度。下面通過(guò)一個(gè)虛擬的例子來(lái)分析Apriori算法在高校房產(chǎn)檔案中應(yīng)用的實(shí)際意義。

二、Apriori算法在房產(chǎn)檔案中的應(yīng)用

高校教職工住房改革與福利分房的資料是高校房產(chǎn)檔案中重要的組成部分,也是最能體現(xiàn)房產(chǎn)檔案復(fù)雜性的一部分,在日常管理工作中具有較高的查詢利用率。利用Apriori算法在模擬的房產(chǎn)檔案數(shù)據(jù)中進(jìn)行關(guān)聯(lián)分析實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)集采用50條教職工房改信息,Apriori算法是基于《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》中python代碼,最小支持度閾值設(shè)為0.6,置信度參數(shù)設(shè)置為0.85。測(cè)試數(shù)據(jù)集中事務(wù)ID為數(shù)據(jù)條目,如01條事務(wù)數(shù)據(jù)表示教職工A同時(shí)有購(gòu)房申請(qǐng)表、購(gòu)房審批表、購(gòu)房買賣契約、購(gòu)房票據(jù)、貨幣補(bǔ)貼審批表和退款票據(jù)這6種資料。而02條事務(wù)數(shù)據(jù)表示教職工B沒(méi)有這些資料,只有貨幣補(bǔ)貼審批表、退房協(xié)議和會(huì)議記錄上討論的關(guān)于住房問(wèn)題的解決方案,以此類推。數(shù)據(jù)集如表1所示。運(yùn)行代碼,實(shí)驗(yàn)結(jié)果顯示在測(cè)試數(shù)據(jù)中。當(dāng)支持度閾值α設(shè)置為0.6的情況下,共有10個(gè)頻繁項(xiàng)集。見(jiàn)表2、表3。它意味著如果用戶來(lái)查詢相關(guān)檔案,85%的教職工可以查詢到申領(lǐng)過(guò)的住房貨幣補(bǔ)貼記錄,70%的教職工有學(xué)校分配住房的記錄或者職稱和定級(jí)文件,65%的教職工提交過(guò)購(gòu)房申請(qǐng)表,70%的教職工提交過(guò)貨幣補(bǔ)貼審批表,70%的教職工提交過(guò)購(gòu)房審批表并簽署過(guò)購(gòu)房買賣契約。退房協(xié)議和會(huì)議記錄上提及到住房解決方案的資料歸檔的數(shù)量不太多,支持度沒(méi)有達(dá)到閾值0.6。將支持度閾值α調(diào)整為0.5查看結(jié)果,發(fā)現(xiàn)頻繁項(xiàng)集增加了許多,從表2所示結(jié)果可知55%的查詢者可以檢索到自己的購(gòu)房票據(jù)。多次調(diào)整支持度閾值可準(zhǔn)確定量地知曉數(shù)據(jù)集中各類案卷的分布情況。另外,從表2中可以看出,購(gòu)房申請(qǐng)表和購(gòu)房審批表及購(gòu)房買賣契約同時(shí)出現(xiàn)的概率為60%,表示提交過(guò)購(gòu)房申請(qǐng)的教職工中60%的人最后都購(gòu)買了公房。購(gòu)房申請(qǐng)表和購(gòu)房買賣契約同時(shí)出現(xiàn)的概率為70%,說(shuō)明大部分教職工這兩樣材料都齊全。根據(jù)這些結(jié)論,檔案管理人員可以快速知悉數(shù)據(jù)庫(kù)中各類資料的數(shù)量比例,做到心中有數(shù),查詢有的放矢。實(shí)驗(yàn)第二部分計(jì)算了各頻繁項(xiàng)集的置信度,置信度定量地估算出所分析得到的關(guān)聯(lián)規(guī)則的準(zhǔn)確度,也即可信度。見(jiàn)表4。由表4所示的實(shí)驗(yàn)結(jié)果可知,上一步得出的購(gòu)房審批表和購(gòu)房買賣契約的共現(xiàn)概率70%(支持度),其置信度為100%,可信度非常高。購(gòu)房申請(qǐng)表和購(gòu)房審批表共現(xiàn)概率60%的置信度為92.3%。置信度的計(jì)算可以提供使用關(guān)聯(lián)規(guī)則的依據(jù),首先使用置信度高的關(guān)聯(lián)規(guī)則,提高檔案查詢效率。

在實(shí)際房產(chǎn)檔案管理工作中,檔案管理人員可以利用關(guān)聯(lián)分析規(guī)則提高檔案檢索效率和查全率。例如,需要查詢教職工A十幾年前的住房記錄,但是在分房記錄的數(shù)據(jù)里沒(méi)有找到該資料,是否就意味著這份資料遺失或沒(méi)有歸檔呢?依據(jù)規(guī)則,貨幣補(bǔ)貼審批表對(duì)分房記錄的支持度為0.65,意味著檢索到A的貨幣補(bǔ)貼審批表就有65%的概率可以查詢到A的分房記錄材料,這一推測(cè)的置信度為92.9%,可信程度很高,因此可以從貨幣補(bǔ)貼審批表作為突破口做新的嘗試。查詢A的貨幣補(bǔ)貼審批表發(fā)現(xiàn)當(dāng)年所填寫(xiě)的房屋地址與現(xiàn)在所用的地址名稱不一致,是變更前的地址,因?yàn)闀r(shí)間間隔久遠(yuǎn)不少人已經(jīng)不知道原來(lái)的地址名稱。檢索舊地址最后找到A的分房記錄,問(wèn)題迎刃而解??梢?jiàn)關(guān)聯(lián)分析規(guī)則的應(yīng)用能為某些檢索難題提供思路和捷徑。同樣,對(duì)于很多歷史悠久的高校來(lái)說(shuō),不少建筑經(jīng)歷過(guò)更名、改造、擴(kuò)建等變動(dòng),在查閱老舊圖紙或資料時(shí)常常遇到困難,輸入的關(guān)鍵字與當(dāng)時(shí)著錄的關(guān)鍵字不匹配,檢索不到想要的檔案。利用關(guān)聯(lián)分析找到關(guān)聯(lián)緊密的材料,很大程度上可以提高檔案檢索的查全性。最后,檔案檔案管理人員可以依據(jù)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)管理中的疏漏。購(gòu)房票據(jù)的支持度明顯小于購(gòu)房審批表和購(gòu)房買賣契約,說(shuō)明不少購(gòu)房者的購(gòu)房票據(jù)沒(méi)有檢索到,這就需要檔案管理人員查驗(yàn)是否由于票據(jù)遺失,或是著錄過(guò)程中重要信息沒(méi)有提取導(dǎo)致沒(méi)有檢索到,找到問(wèn)題所在,完善檔案管理。綜上所述,關(guān)聯(lián)分析算法的應(yīng)用可以提高高校房產(chǎn)檔案信息化建設(shè)的效益。但是,現(xiàn)階段高校房產(chǎn)檔案管理信息化亟待解決的一個(gè)困難是將多源異構(gòu)的數(shù)據(jù)信息化,以便能從不同的數(shù)據(jù)庫(kù)信息中挖掘潛在信息,提高檔案的利用價(jià)值。

參考文獻(xiàn):

[1](美)PeterHarrington.機(jī)器學(xué)習(xí)實(shí)戰(zhàn)[M].李銳,李鵬,曲亞?wèn)|,王斌,譯.人民郵電出版社,2013.

[2]郭雪薇,董晶.基于特征關(guān)聯(lián)分析的檔案信息關(guān)聯(lián)分析模型[J].電子設(shè)計(jì)工程,2019(27):47-52.

[3]呂元智.數(shù)字檔案資源知識(shí)“關(guān)聯(lián)”組織研究[J].檔案學(xué)研究,2012(6):44-48.

[4]梁麗燕.關(guān)聯(lián)規(guī)則挖掘Apriori算法在數(shù)字檔案系統(tǒng)中的應(yīng)用研究[J].現(xiàn)代計(jì)算機(jī),2011(13):7-10.

[5]許惠瑋.基于數(shù)據(jù)挖掘的數(shù)字檔案信息管理研究[J].北京檔案,2012(9):29-30.

[6]左娜,張衛(wèi)東,賈瓊.基于關(guān)聯(lián)數(shù)據(jù)的檔案文化資源整合研究[J].蘭臺(tái)世界,2018(2):21-25.

[7]陳源.數(shù)據(jù)挖掘在高校檔案管理中的應(yīng)用研究[J].辦公室業(yè)務(wù),2012(22):144-145.

作者:曹晨 單位:蘇州大學(xué)檔案館