网站首页
教育杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
医学杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
经济杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
金融杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
管理杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
科技杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
工业杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
SCI杂志
中科院1区 中科院2区 中科院3区 中科院4区
全部期刊
公務(wù)員期刊網(wǎng) 論文中心 正文

電商企業(yè)信用風(fēng)險(xiǎn)預(yù)警模型缺失值探究

前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了電商企業(yè)信用風(fēng)險(xiǎn)預(yù)警模型缺失值探究范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

電商企業(yè)信用風(fēng)險(xiǎn)預(yù)警模型缺失值探究

摘要:電子商務(wù)信用風(fēng)險(xiǎn)評(píng)估是建設(shè)信用體系的重要環(huán)節(jié)。在企業(yè)電子商務(wù)數(shù)據(jù)采集存在缺失值的情況下,本文比較了BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹(shù)、極限學(xué)習(xí)機(jī)以及對(duì)應(yīng)的集成模型在含缺失值預(yù)測(cè)樣本的魯棒性。實(shí)證數(shù)據(jù)分析結(jié)果顯示,極限學(xué)習(xí)機(jī)及其集成模型在上述情況下優(yōu)于其他模型。

關(guān)鍵詞:信用風(fēng)險(xiǎn)預(yù)警;缺失值;機(jī)器學(xué)習(xí)

1引言

2019年中國(guó)電子商務(wù)報(bào)告數(shù)據(jù)顯示,我國(guó)的電子商務(wù)逐年穩(wěn)步增長(zhǎng),在國(guó)民經(jīng)濟(jì)中的比重越來(lái)越大,發(fā)揮著重要的經(jīng)濟(jì)和社會(huì)作用[1]。但是另一份報(bào)告指出信用風(fēng)險(xiǎn)破壞著健康的電子商務(wù)交易環(huán)境[2],阻礙了電子商務(wù)的進(jìn)一步快速發(fā)展。構(gòu)建信用管理體系,將信用風(fēng)險(xiǎn)納入體系有助于規(guī)范和推動(dòng)電子商務(wù)市場(chǎng)。有效的信用風(fēng)險(xiǎn)評(píng)估可以提升交易主體的信心,加速商務(wù)活動(dòng)的過(guò)程,從而為電商創(chuàng)造更有利的發(fā)展環(huán)境。電商信用評(píng)估模型的建立一般通過(guò)指標(biāo)設(shè)計(jì)及數(shù)據(jù)采集、指標(biāo)篩選以及模型訓(xùn)練和評(píng)估3個(gè)基本步驟。目前國(guó)內(nèi)外已有研究顯示[2-7],在電商數(shù)據(jù)樣本少、維度高以及類(lèi)別不平衡的情況下,基于機(jī)器學(xué)習(xí)方法的電商信用風(fēng)險(xiǎn)評(píng)估模型效果優(yōu)于傳統(tǒng)的統(tǒng)計(jì)方法,能夠有效地評(píng)估信用風(fēng)險(xiǎn)。然而建立好的模型僅能在待測(cè)樣本所有指標(biāo)數(shù)據(jù)完整的情況下工作。在實(shí)際情況中,由于數(shù)據(jù)采集受到企業(yè)制度、隱私規(guī)范等情況的限制,難以為待評(píng)估的企業(yè)收集到完整指標(biāo)數(shù)據(jù)。此時(shí)模型的應(yīng)用就受到了極大的限制。一個(gè)很自然的解決方法就是為含缺失值的樣本補(bǔ)全缺失數(shù)據(jù),然后再進(jìn)行評(píng)估。因此,研究待測(cè)樣本在常規(guī)的缺失值補(bǔ)全方式下模型的魯棒性可以為模型的應(yīng)用提供有價(jià)值的參考,具有重要的實(shí)踐意義。現(xiàn)有研究在電商信用風(fēng)險(xiǎn)預(yù)測(cè)模型中常用的機(jī)器學(xué)習(xí)技術(shù)包括反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)、支持向量機(jī)(SVM)、決策樹(shù)(DT)以及上述模型的同質(zhì)集成和異質(zhì)集成模型。一些研究人員使用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行信用風(fēng)險(xiǎn)預(yù)警等級(jí)的預(yù)測(cè)[2-4],不同的是王新輝使用誤差反向傳播來(lái)進(jìn)行優(yōu)化[2],ZhangX使用粒子群算法進(jìn)行優(yōu)化[3],HuangXB使用廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)和概率神經(jīng)網(wǎng)絡(luò)(PNN)[4]。一些研究人員使用SVM作為同質(zhì)集成模型的基分類(lèi)器[5-6],不同的是陳云等通過(guò)隨機(jī)子集模型(RSM)方法集成[5],而周可瀅通過(guò)Bagging方法來(lái)集成[6]。XuYZ等綜合評(píng)估了DT分別與邏輯回歸(LR)、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)及神經(jīng)網(wǎng)絡(luò)相結(jié)合的模型性能[7],提出了決策樹(shù)-神經(jīng)網(wǎng)絡(luò)的組合模型。對(duì)樣本缺失數(shù)據(jù)的填補(bǔ)除了傳統(tǒng)方法外,還有基于統(tǒng)計(jì)學(xué)習(xí)和深度學(xué)習(xí)的方法。金勇進(jìn)歸納和介紹了均值填補(bǔ)、回歸填補(bǔ)、多重填補(bǔ)、隨機(jī)估計(jì)填補(bǔ)和演繹估計(jì)填補(bǔ)等傳統(tǒng)的缺失數(shù)據(jù)填補(bǔ)方法[8]。樸范玉使用自動(dòng)編碼器通過(guò)完整數(shù)據(jù)學(xué)習(xí)了待填補(bǔ)的數(shù)據(jù)特征[9],再通過(guò)學(xué)習(xí)好的自動(dòng)編碼器完成數(shù)據(jù)的填補(bǔ)。孟杰使用隨機(jī)森林模型來(lái)完成調(diào)查問(wèn)卷缺失數(shù)據(jù)的填補(bǔ)[10]。曹衛(wèi)權(quán)研究了機(jī)器學(xué)習(xí)中的數(shù)據(jù)特征[11],提出了一種近似填補(bǔ)方法。張網(wǎng)娟則在卷積神經(jīng)網(wǎng)絡(luò)模型的背景下研究了缺失數(shù)據(jù)的填補(bǔ)方法[12]。由于基于統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)的方法需要獲得數(shù)據(jù)分布的先驗(yàn)假設(shè),直接應(yīng)用在電商數(shù)據(jù)少量樣本的場(chǎng)景下容易造成嚴(yán)重的數(shù)據(jù)偏差,因此本文擬采用最常用和傳統(tǒng)的均值填補(bǔ)方法。與以往為了改善模型性能的缺失數(shù)據(jù)填補(bǔ)不同,本文研究訓(xùn)練好的模型對(duì)含缺失值待測(cè)樣本的影響。現(xiàn)有的機(jī)器學(xué)習(xí)算法在超參數(shù)的選擇下幾乎都可以達(dá)到良好的一致的效果,但是在預(yù)測(cè)樣本含缺失值的情況下可能造成不同的性能下降,即對(duì)含缺失值樣本有不同的魯棒性。本文研究在電商模型中不同的機(jī)器學(xué)習(xí)模型,使用常規(guī)均值填補(bǔ)的缺失值預(yù)測(cè)樣本情況下的魯棒性。

2對(duì)比模型及缺失值填補(bǔ)方法

2.1對(duì)比模型

在電商信用評(píng)估中常用的機(jī)器學(xué)習(xí)模型有BPNN、SVM和DT。為了進(jìn)一步評(píng)估不同的模型,本文將極限學(xué)習(xí)機(jī)(ELM)加入對(duì)比模型。除了以上四種模型以外,考慮到集成學(xué)習(xí)可以降低模型的偏差,進(jìn)一步增強(qiáng)模型在不同場(chǎng)景下的泛化能力,更加準(zhǔn)確和公正地評(píng)估模型的性能[13],本文將以上四個(gè)模型作為基分類(lèi)器進(jìn)行同質(zhì)的集成學(xué)習(xí),對(duì)多個(gè)基分類(lèi)器的結(jié)果使用相對(duì)多數(shù)投票法的結(jié)合策略,然后進(jìn)一步比較性能。BPNN是一種分層的非線(xiàn)性映射網(wǎng)絡(luò)結(jié)構(gòu)[14]。其輸入數(shù)據(jù)通過(guò)網(wǎng)絡(luò)權(quán)重的線(xiàn)性變換后,再由具備非線(xiàn)性能力的激活函數(shù)映射后輸出,根據(jù)輸出預(yù)測(cè)值與真值之間的誤差逆向傳播來(lái)更新網(wǎng)絡(luò)權(quán)重達(dá)到優(yōu)化模型的目的。BPNN可用于回歸和分類(lèi),在分類(lèi)任務(wù)中通常在輸出層使用Softmax函數(shù)進(jìn)行歸一化,誤差由交叉熵來(lái)表達(dá)。SVM通過(guò)尋找能使二類(lèi)樣本間的最大間隔超平面來(lái)建立模型[15],一般通過(guò)SMO等優(yōu)化技術(shù)來(lái)求解。SVM可以將樣本經(jīng)過(guò)核函數(shù)映射到希爾伯特空間后再計(jì)算超平面以獲得非線(xiàn)性的類(lèi)決策邊界。SVM經(jīng)過(guò)“一對(duì)多”、“一對(duì)一”等訓(xùn)練方式拓展后可以應(yīng)用于多分類(lèi)任務(wù)。DT依據(jù)屬性值的不同來(lái)以樹(shù)狀結(jié)構(gòu)按樣本屬性劃分樣本類(lèi)別[16]。劃分屬性的選擇基準(zhǔn)為信息熵、基尼系數(shù)等信息度量。當(dāng)樹(shù)狀結(jié)構(gòu)的葉子結(jié)點(diǎn)類(lèi)別一致或?qū)傩灾狄恢聲r(shí)停止算法。ELM使用的結(jié)構(gòu)與神經(jīng)網(wǎng)絡(luò)相似[17],在求解方法和思想上有較大的區(qū)別。ELM首先通過(guò)線(xiàn)性變換結(jié)合非線(xiàn)性的激活函數(shù)將訓(xùn)練樣本隨機(jī)投影到新的空間,在新的空間內(nèi)直接求解使得投影后的樣本與真值之間最小誤差的線(xiàn)性變換矩陣。由于投影的隨機(jī)性和直接計(jì)算解析解,ELM求解速度快,其泛化能力在一定程度上優(yōu)于BPNN。

2.2無(wú)類(lèi)別先驗(yàn)均值填補(bǔ)方法

使用類(lèi)均值補(bǔ)全缺失值,即使用該樣本所屬類(lèi)別在該屬性值上的均值代替缺失值,并以此參與模型訓(xùn)練和預(yù)測(cè)。但是在本文的場(chǎng)景中缺失值的樣本為待測(cè)樣本,未知其類(lèi)別,也就無(wú)法使用對(duì)應(yīng)類(lèi)別的屬性均值代替缺失值。因此,本文使用各個(gè)類(lèi)別的均值分別替代缺失值后,再對(duì)補(bǔ)全缺失值的樣本進(jìn)行預(yù)測(cè)。即若模型為k分類(lèi)問(wèn)題,則每一個(gè)待測(cè)樣本需要使用k個(gè)類(lèi)的均值分別代替補(bǔ)全,每一個(gè)待測(cè)樣本會(huì)產(chǎn)生k個(gè)補(bǔ)全后的樣本。通過(guò)補(bǔ)全后的測(cè)試集樣本數(shù)量為原測(cè)試集樣本的k倍。由于補(bǔ)全缺失值后的樣本受到所填補(bǔ)的非所屬類(lèi)均值數(shù)據(jù)的干擾,會(huì)造成原有模型在測(cè)試準(zhǔn)確率上的下降,因此可以通過(guò)模型在補(bǔ)全后的樣本測(cè)試集上測(cè)試準(zhǔn)確率來(lái)判斷模型對(duì)缺失值預(yù)測(cè)樣本的魯棒性。

3實(shí)證研究及其分析

3.1數(shù)據(jù)來(lái)源及其指標(biāo)體系

本文采用王新輝建立的指標(biāo)體系及其調(diào)研的18家企業(yè)數(shù)據(jù)[2],使用該體系中的全部19個(gè)指標(biāo)作為研究的數(shù)據(jù)來(lái)源。王新輝首先根據(jù)19個(gè)指標(biāo)間的相關(guān)系[2],使用主成分分析法選擇出13個(gè)重要指標(biāo),然后根據(jù)這些指標(biāo)和專(zhuān)家打分劃分出不同的信用風(fēng)險(xiǎn)等級(jí),最后使用BPNN訓(xùn)練得到模型。本文為了降低類(lèi)別不平衡問(wèn)題對(duì)模型魯棒性造成的影響,綜合考慮實(shí)踐的信用風(fēng)險(xiǎn)預(yù)警等級(jí)情況,將數(shù)據(jù)集重新劃分為以下3個(gè)等級(jí),對(duì)應(yīng)的預(yù)警等級(jí)和分值范圍為:無(wú)風(fēng)險(xiǎn)預(yù)警A(70-100),低風(fēng)險(xiǎn)預(yù)警B(40-69),風(fēng)險(xiǎn)預(yù)警C(0-39)。此時(shí)原始數(shù)據(jù)中的18家企業(yè)信用風(fēng)險(xiǎn)分值和風(fēng)險(xiǎn)預(yù)警等級(jí)如表1所示。根據(jù)表1,本文取前13家企業(yè)為訓(xùn)練樣本,后5家為測(cè)試樣本。然后對(duì)5個(gè)測(cè)試樣本假設(shè)為缺失值樣本,為了平衡對(duì)比模型各個(gè)屬性上的差異,樣本中的各個(gè)屬性都假設(shè)為缺失值,這樣每一個(gè)待測(cè)樣本都產(chǎn)生19個(gè)測(cè)試樣本。這19個(gè)樣本分別對(duì)應(yīng)著19個(gè)屬性缺失值。按照上述的假設(shè),測(cè)試集共有5*19=95個(gè)樣本,在每一個(gè)屬性上缺失值樣本各5個(gè)。對(duì)這95個(gè)含缺失值的預(yù)測(cè)樣本使用無(wú)先驗(yàn)的類(lèi)均值填補(bǔ)方法,每一個(gè)預(yù)測(cè)樣本需要分別填補(bǔ)3次,對(duì)應(yīng)3個(gè)類(lèi)別的預(yù)警級(jí)別,最終在類(lèi)別上無(wú)先驗(yàn),屬性值上均衡的測(cè)試集樣本數(shù)量共有95*3=285個(gè)測(cè)試樣本。

3.2模型參數(shù)選擇及實(shí)驗(yàn)設(shè)置

模型中的各個(gè)參數(shù)選擇通過(guò)交叉驗(yàn)證來(lái)選擇。在BPNN模型中,使用單隱層結(jié)構(gòu),隱層的結(jié)點(diǎn)數(shù)量為5個(gè),激活函數(shù)為Sigmoid函數(shù),優(yōu)化方法采用L-BFGS算法,收斂條件為誤差小于0.001或迭代達(dá)到最大次數(shù)。在SVM模型中,使用RBF徑向基函數(shù)為核函數(shù),其核寬度參數(shù)為1/19,懲罰因子C為1,收斂條件為誤差小于0.001或迭代達(dá)到最大次數(shù)。若在集成時(shí),則參數(shù)C和核寬度在一定范圍內(nèi)隨機(jī)抽樣以增加多樣性。在DT模型中,使用信息熵增益。在ELM模型中,隱層結(jié)點(diǎn)數(shù)選擇為7個(gè)結(jié)點(diǎn),激活函數(shù)同樣設(shè)置為Sigmoid函數(shù)。在檢測(cè)基分類(lèi)器的效果時(shí),每個(gè)模型各運(yùn)行500次取測(cè)試準(zhǔn)確率平均值作為比較;在檢測(cè)集成模型的效果時(shí),使用500個(gè)基學(xué)習(xí)器進(jìn)行相對(duì)多數(shù)投票法來(lái)預(yù)測(cè)最終分類(lèi)結(jié)果,每個(gè)集成模型運(yùn)行10次,取準(zhǔn)確率均值作為度量比較模型效果。

3.3實(shí)驗(yàn)結(jié)果及分析

不同的基分類(lèi)器運(yùn)行500次后準(zhǔn)確率的平均值如圖1所示。每組數(shù)據(jù)左邊代表原始數(shù)據(jù)集上的準(zhǔn)確率,右邊代表含缺失值的預(yù)測(cè)樣本準(zhǔn)確率??梢悦黠@地發(fā)現(xiàn),含缺失值的預(yù)測(cè)樣本準(zhǔn)確率明顯低于原始數(shù)據(jù)集。同時(shí)還可以發(fā)現(xiàn)以下結(jié)論:SVM分類(lèi)器的準(zhǔn)確率明顯高于其他分類(lèi)器;ELM對(duì)缺失值的魯棒性最好,模型準(zhǔn)確率下降的幅度最少。這說(shuō)明SVM在小規(guī)模的數(shù)據(jù)集上訓(xùn)練得到的模型具備更好的泛化能力,而ELM由于進(jìn)行了隨機(jī)投影,因此更不容易受到缺失值的影響。使用不同數(shù)量的基分類(lèi)器進(jìn)行集成的模型效果如圖2所示。圖2所展示的是含缺失值預(yù)測(cè)數(shù)據(jù)集的準(zhǔn)確率。從圖中可以明顯看出,ELM為基分類(lèi)器的集成模型明顯高于其他模型。當(dāng)基分類(lèi)器的數(shù)量達(dá)到一定程度時(shí),模型的預(yù)測(cè)效果較為穩(wěn)定。根據(jù)圖2的結(jié)論,集成分類(lèi)器的數(shù)量設(shè)置為500。使用500個(gè)基分類(lèi)器的集成模型運(yùn)行10次后,以及單個(gè)基分類(lèi)器運(yùn)行500次后的原始數(shù)據(jù)集準(zhǔn)確率和含缺失值樣本的測(cè)試數(shù)據(jù)集準(zhǔn)確率的平均值如圖3所示。從圖中展示的結(jié)果可以看出:(1)以ELM為基分類(lèi)器的集成模型無(wú)論在原始測(cè)試集和含缺失值的測(cè)試集中都具備最高的準(zhǔn)確率,表明在小樣本高維度的情況下,ELM的隨機(jī)投影能夠充分挖掘數(shù)據(jù)內(nèi)部聯(lián)系,提高模型的泛化能力。(2)以ELM為基分類(lèi)器的集成模型在原始測(cè)試集和含缺失值測(cè)試集上的準(zhǔn)確率一致,沒(méi)有下降,表明集成的ELM模型對(duì)含缺失值測(cè)試集具備良好的魯棒性。(3)除了SVM外的其他模型,通過(guò)集成后都提高了其模型在原始測(cè)試集和含缺失值測(cè)試上的準(zhǔn)確率。(4)SVM在集成后幾乎沒(méi)有提高準(zhǔn)確率。這可能是在小樣本情況下,不同基分類(lèi)器所學(xué)習(xí)到的支持向量幾乎一致,因此難以在集成學(xué)習(xí)下進(jìn)一步提高準(zhǔn)確率。

4結(jié)語(yǔ)

本文以電子商務(wù)企業(yè)信用風(fēng)險(xiǎn)預(yù)警為背景,研究了基于BPNN、SVM、DT以及ELM模型的分類(lèi)器在含缺失值的預(yù)測(cè)樣本情況下的魯棒性。實(shí)證分析顯示,ELM在魯棒性方面表現(xiàn)優(yōu)于其他類(lèi)型的分類(lèi)器。以ELM為基分類(lèi)器的集成模型不僅在魯棒性方法同樣優(yōu)于其他模型,在集成后的模型中也達(dá)到了最好的準(zhǔn)確率。本文所設(shè)計(jì)的無(wú)類(lèi)別先驗(yàn)的均值補(bǔ)全方法所生成的測(cè)試集與實(shí)際情況下的含缺失值樣本還存在著差異,今后考將慮從實(shí)際情況出發(fā)進(jìn)一步驗(yàn)證不同模型的魯棒性。

作者:陳艷 蔣偉杰 單位:福州大學(xué)至誠(chéng)學(xué)院經(jīng)濟(jì)管理系 福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院

免责声明

本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。

AI写作,高效原创

在线指导,快速准确,满意为止

立即体验
文秘服务 AI帮写作 润色服务 论文发表