前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了大數(shù)據(jù)分析下網(wǎng)絡(luò)安全風(fēng)險(xiǎn)挖掘淺析范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。
摘要:為了保證網(wǎng)絡(luò)安全,提出基于大數(shù)據(jù)分析的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)挖掘與估計(jì)方法,選取Hadoop平臺(tái)的Map和Reduce函數(shù)挖掘網(wǎng)絡(luò)安全事件關(guān)聯(lián)規(guī)則,將所挖掘關(guān)聯(lián)規(guī)則作為網(wǎng)絡(luò)安全事件特征,將網(wǎng)絡(luò)安全事件特征作為徑向基核函數(shù)的支持向量機(jī)輸入,通過(guò)訓(xùn)練建立網(wǎng)絡(luò)安全風(fēng)險(xiǎn)估計(jì)模型,并采用QPSO方法的尋優(yōu)性能搜尋支持向量機(jī)最優(yōu)參數(shù),實(shí)驗(yàn)結(jié)果表明,該方法提升了網(wǎng)絡(luò)安全風(fēng)險(xiǎn)估計(jì)精度,對(duì)于防御網(wǎng)絡(luò)安全風(fēng)險(xiǎn)具有重要的參考價(jià)值。
關(guān)鍵詞:大數(shù)據(jù)分析;網(wǎng)絡(luò)安全風(fēng)險(xiǎn);關(guān)聯(lián)規(guī)則;支持向量機(jī)
1引言
互聯(lián)網(wǎng)技術(shù)發(fā)展極為迅速,互聯(lián)網(wǎng)網(wǎng)絡(luò)環(huán)境具有較高的開(kāi)放性,部分攻擊者利用網(wǎng)絡(luò)具有的不確定性以及多樣性攻擊網(wǎng)絡(luò),嚴(yán)重威脅網(wǎng)絡(luò)運(yùn)行安全[1-2]。以往的網(wǎng)絡(luò)防御方法僅利用數(shù)據(jù)包中所包含信息獲取風(fēng)險(xiǎn)估計(jì)結(jié)果,所獲取風(fēng)險(xiǎn)估計(jì)結(jié)果準(zhǔn)確率較低。為了保障網(wǎng)絡(luò)運(yùn)行安全性,令網(wǎng)絡(luò)管理者實(shí)時(shí)明確網(wǎng)絡(luò)運(yùn)行狀態(tài),提前明確網(wǎng)絡(luò)安全風(fēng)險(xiǎn),采用相應(yīng)的防御措施抵御風(fēng)險(xiǎn),是保障網(wǎng)絡(luò)安全運(yùn)行的重要基礎(chǔ)[3-5]。目前眾多研究學(xué)者針對(duì)網(wǎng)絡(luò)安全風(fēng)險(xiǎn)進(jìn)行大量研究。韓曉露與何春蓉等人分別利用直覺(jué)模糊集以及注意力機(jī)制評(píng)估網(wǎng)絡(luò)安全態(tài)勢(shì)[6-7],但網(wǎng)絡(luò)安全風(fēng)險(xiǎn)仍存在告警量過(guò)大以及由于數(shù)據(jù)量過(guò)大導(dǎo)致誤報(bào)率較高的缺陷。從海量網(wǎng)絡(luò)大數(shù)據(jù)中挖掘有用的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)數(shù)據(jù)是網(wǎng)絡(luò)安全風(fēng)險(xiǎn)精準(zhǔn)評(píng)估的關(guān)鍵。網(wǎng)絡(luò)存在攻擊行為時(shí),將形成大量眾多類型的告警信息,提升數(shù)據(jù)挖掘難度[8],高效的大數(shù)據(jù)挖掘方法對(duì)于提升網(wǎng)絡(luò)安全風(fēng)險(xiǎn)評(píng)估精度極為重要。為此本文提出了基于大數(shù)據(jù)分析的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)挖掘與估計(jì)方法,并對(duì)其性能進(jìn)行了測(cè)試與分析。
2大數(shù)據(jù)分析的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)挖掘與估計(jì)方法
2.1數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則提取
采集海量網(wǎng)絡(luò)數(shù)據(jù)中的安全事件,由于所采集網(wǎng)絡(luò)安全事件格式存在較大差異,需歸一化處理安全事件,便于挖掘其中所包含的關(guān)聯(lián)規(guī)則。利用所挖掘關(guān)聯(lián)規(guī)則分析網(wǎng)絡(luò)安全風(fēng)險(xiǎn)的相似病毒[9],相似漏洞等攻擊行為,提升網(wǎng)絡(luò)安全風(fēng)險(xiǎn)評(píng)估精度。利用大數(shù)據(jù)分析技術(shù)的數(shù)據(jù)挖掘方法提取網(wǎng)絡(luò)安全事件關(guān)聯(lián)規(guī)則。W={w1,w2,…,wn}表示安全事件元素集合,R={r1,r2,…,rn}表示數(shù)據(jù)集,數(shù)據(jù)集R中所包含元素ri均為由W建立的集合,即存在riW。定義1:利用集合R內(nèi)元素建立集合C,數(shù)據(jù)集內(nèi)元素可滿足Cri要求數(shù)量為l時(shí),可得數(shù)據(jù)集R內(nèi)集合C的支持度計(jì)算公式如下:(1)(1)定義2:存在集合C與集合D滿足AW∩IDW時(shí),利用表示C→D的置信度。所挖掘數(shù)據(jù)集合內(nèi)可滿足最小置信度以及最小支持度的C→D即大數(shù)據(jù)挖掘方法所需挖掘的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則通過(guò)挖掘事務(wù)集內(nèi)頻繁項(xiàng)集合,獲取不同事務(wù)與事務(wù)間所存在的關(guān)聯(lián)規(guī)則。網(wǎng)絡(luò)安全事件具有規(guī)模量極大的特點(diǎn)[10],選取云計(jì)算平臺(tái)Hadoop平臺(tái)實(shí)現(xiàn)海量網(wǎng)絡(luò)安全事件關(guān)聯(lián)規(guī)則挖掘。大數(shù)據(jù)分析技術(shù)挖掘關(guān)聯(lián)規(guī)則分為兩部分:(1)挖掘頻繁項(xiàng)集,所挖掘頻繁項(xiàng)集應(yīng)滿足最小支持度;(2)利用數(shù)據(jù)挖掘所獲取的頻繁項(xiàng)集挖掘滿足最小置信度條件的關(guān)聯(lián)規(guī)則。Hadoop平臺(tái)利用Map函數(shù)以及Reduce函數(shù)獲取項(xiàng)目集子集以及綜合已獲取子集的支持度,通過(guò)分析全部子集支持度獲取所挖掘網(wǎng)絡(luò)安全事件中頻繁項(xiàng)支持度,挖掘網(wǎng)絡(luò)安全事件數(shù)據(jù)集中所包含頻繁項(xiàng)集。Hadoop平臺(tái)挖掘關(guān)聯(lián)規(guī)則過(guò)程如下:將最小支持度β以及原始網(wǎng)絡(luò)安全事件數(shù)據(jù)集R作為Hadoop平臺(tái)運(yùn)算輸入;將可滿足最小支持度的頻繁項(xiàng)作為Hadoop平臺(tái)運(yùn)算輸出。Map任務(wù):(1)依據(jù)所輸入文件路徑利用最小支持度的頻繁項(xiàng)集分割原始網(wǎng)絡(luò)安全數(shù)據(jù)集為大小為n的數(shù)據(jù)子集,格式化處理所分割的各子集,獲取<key,value>鍵值對(duì),其中value與key分別表示數(shù)據(jù)信息以及字符偏移量。(2)將所獲取不同子集中的<key,value>鍵值對(duì)依據(jù)Map函數(shù)讀取,將數(shù)據(jù)信息value利用split函數(shù)解析,將解析結(jié)果傳送至集合內(nèi);(3)利用輸出key表示全部子集,設(shè)子集value值等于1;(4)調(diào)用全部可選的Combin函數(shù),全部Map端在網(wǎng)絡(luò)安全數(shù)據(jù)中生成相同key值的鍵值對(duì),通過(guò)Combin函數(shù)合并全部相同的鍵值對(duì),改善通過(guò)網(wǎng)絡(luò)將所獲取的鍵值對(duì)發(fā)送至Reduce端造成運(yùn)算效率低的缺陷;Reduce任務(wù):(1)排序Combin函數(shù)所發(fā)送的鍵值對(duì),合并相同key值的鍵值對(duì),獲取<key,L(value)>,所獲取鍵值對(duì)利用Re-duce函數(shù)讀取,累加鍵值對(duì)中L()內(nèi)的值。網(wǎng)絡(luò)安全數(shù)據(jù)集R內(nèi)key集合的支持?jǐn)?shù)量,所獲取結(jié)果即Reduce端具有頻繁候選項(xiàng)集的全局支持度;(2)將高于最小支持度的候選項(xiàng)集基于最小支持度發(fā)送至存儲(chǔ)數(shù)據(jù)外部表內(nèi),利用所獲取外部表查詢挖掘所獲取的頻繁項(xiàng)集,設(shè)置該頻繁項(xiàng)為MapReduce程序的輸入以及輸入相關(guān)文件。將最小置信度δ以及滿足最小置信度δ的關(guān)聯(lián)規(guī)則分別作為挖掘網(wǎng)絡(luò)安全事件關(guān)聯(lián)規(guī)則的輸入與輸出,運(yùn)算過(guò)程如下:(1)選取Map函數(shù)啟動(dòng)setup法連接數(shù)據(jù)庫(kù);(2)分割存儲(chǔ)數(shù)據(jù)所建立外部表內(nèi)的頻繁項(xiàng)集,完成分割后獲取數(shù)量為n的數(shù)據(jù)子集,將全部數(shù)據(jù)格式化處理至<key,value>鍵值對(duì);(3)解析value內(nèi)頻繁項(xiàng)集內(nèi)元素,完成解析后獲取相應(yīng)value值用(C,D,SValue)表示,將所獲取的(C,D)存儲(chǔ)至集合中;(4)求解頻繁項(xiàng)集內(nèi)元素子集C,讀取元素子集C支持度sup(C),利用表示C→D的置信度。(5)當(dāng)所獲取置信度高于已設(shè)定閾值時(shí),所獲取的頻繁項(xiàng)集內(nèi)部包含該子集外的全部元素與該子集存在關(guān)聯(lián)規(guī)則,利用所獲取差集與子集建立key值,該key值的置信度值即value。通過(guò)以上過(guò)程挖掘網(wǎng)絡(luò)安全事件關(guān)聯(lián)規(guī)則,利用支持向量機(jī)方法基于所挖掘關(guān)聯(lián)規(guī)則實(shí)現(xiàn)網(wǎng)絡(luò)安全風(fēng)險(xiǎn)估計(jì)。
2.2網(wǎng)絡(luò)安全風(fēng)險(xiǎn)估計(jì)方法
將所挖掘關(guān)聯(lián)規(guī)則作為網(wǎng)絡(luò)安全事件特征,利用所挖掘關(guān)聯(lián)規(guī)則估計(jì)網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。利用樣本輸入xi以及樣本輸出yi所組成的(xi,yi)表示網(wǎng)絡(luò)安全事件訓(xùn)練樣本集,該樣本集滿足xiRn,yiRn。網(wǎng)絡(luò)安全事件樣本集(xi,yi)內(nèi)網(wǎng)絡(luò)安全事件樣本利用非線性映射函數(shù)φ()映射至高維特征空間內(nèi),可得網(wǎng)絡(luò)安全事件評(píng)估的最優(yōu)線性回歸函數(shù)表達(dá)式如下:(2)式中,b與w分別表示偏置量以及權(quán)值。利用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則獲取LSSVM回歸模型的解,可得公式如下:(3)(4)式中,ei與C分別表示回歸函數(shù)與實(shí)際結(jié)果的誤差以及懲罰函數(shù)。將公式(4)的約束優(yōu)化問(wèn)題引入拉格朗日乘子可得公式如下:(5)式中,ai表示拉格朗日乘子。依據(jù)Mercer條件定義核函數(shù)公式如下:(6)選取徑向基核函數(shù)設(shè)置為網(wǎng)絡(luò)安全風(fēng)險(xiǎn)估計(jì)的核函數(shù),可得徑向基核函數(shù)表達(dá)式如下:(7)獲取最終支持向量機(jī)回歸模型如下:(8)式中,σ為徑向基核函數(shù)寬度。支持向量機(jī)參數(shù)決定其估計(jì)精度,選取合適的參數(shù)有助于提升網(wǎng)絡(luò)安全風(fēng)險(xiǎn)估計(jì)精度。選取QPSO算法對(duì)支持向量機(jī)的參數(shù)尋優(yōu)。QPSO算法設(shè)置存在數(shù)量為m的粒子于維度為D的搜索空間內(nèi),粒子原始位置用xi(xi1,xi2,…,xid)表示,PB(pb1,pb2,…,pbd)表示當(dāng)前最優(yōu)位置,GB(bg1,bg2,…,bgd)表示全局最優(yōu)位置。粒子進(jìn)化表達(dá)式如下:(8)式中,mbest與β分別表示粒子群內(nèi)最優(yōu)粒子值以及算法收斂速度。迭代次數(shù)為t時(shí),算法收斂速度計(jì)算公式如下:(9)網(wǎng)絡(luò)安全風(fēng)險(xiǎn)評(píng)估過(guò)程如下:(1)依據(jù)網(wǎng)絡(luò)安全風(fēng)險(xiǎn)評(píng)估規(guī)模設(shè)置粒子群內(nèi)粒子數(shù)量,粒子群內(nèi)粒子維度分別表示用于估計(jì)網(wǎng)絡(luò)安全風(fēng)險(xiǎn)支持向量機(jī)的參數(shù)C與σ。(2)設(shè)置優(yōu)化支持向量機(jī)參數(shù)的粒子群算法的參數(shù)以及最大迭代次數(shù);(3)獲取粒子的適應(yīng)度函數(shù);(4)計(jì)算粒子的最優(yōu)個(gè)體位置以及全局最優(yōu)位置,建立網(wǎng)絡(luò)安全信息庫(kù);(5)更新粒子群內(nèi)各粒子位置;(6)依據(jù)以上過(guò)程重復(fù)迭代計(jì)算,判斷是否滿足終止條件,滿足終止條件時(shí),轉(zhuǎn)至步驟(7),否則轉(zhuǎn)回至步驟(3);(7)將通過(guò)以上過(guò)程所獲取的最優(yōu)粒子作為支持向量機(jī)參數(shù),完成網(wǎng)絡(luò)安全風(fēng)險(xiǎn)估計(jì)模型建立,利用所建立網(wǎng)絡(luò)安全風(fēng)險(xiǎn)估計(jì)模型獲取網(wǎng)絡(luò)安全風(fēng)險(xiǎn)估計(jì)結(jié)果。
3實(shí)例分析
選取某通信網(wǎng)絡(luò)運(yùn)行時(shí)間為60min的通信數(shù)據(jù)作為測(cè)試對(duì)象,共采集樣本數(shù)據(jù)5846544條,采用本文方法評(píng)估網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。選取直覺(jué)模糊集方法(參考文獻(xiàn)[6])以及注意力機(jī)制方法(參考文獻(xiàn)[7])作為對(duì)比方法。本文方法采用大數(shù)據(jù)分析技術(shù)挖掘海量網(wǎng)絡(luò)通信數(shù)據(jù)間所存在的關(guān)聯(lián)規(guī)則,統(tǒng)計(jì)不同最小置信度以及最小支持度時(shí)所挖掘的關(guān)聯(lián)規(guī)則數(shù)量,統(tǒng)計(jì)結(jié)果如圖1所示。圖1實(shí)驗(yàn)結(jié)果可以看出,最小置信度以及最小支持度分別為0.7以及0.3時(shí),可挖掘數(shù)量較多的關(guān)聯(lián)規(guī)則,設(shè)置采用本文方法挖掘海量網(wǎng)絡(luò)數(shù)據(jù)時(shí),β值以及б值分別為0.7以及0.3。本文方法具有較高的關(guān)聯(lián)規(guī)則挖掘性能,應(yīng)用于海量網(wǎng)絡(luò)通信數(shù)據(jù)時(shí),仍具有較高的挖掘效率。完成關(guān)聯(lián)規(guī)則挖掘后,利用QPSO算法的尋優(yōu)性能獲取支持向量機(jī)最優(yōu)參數(shù),QPSO算法在不同迭代次數(shù)時(shí)收斂情況如圖2所示。圖2實(shí)驗(yàn)結(jié)果可以看出,本文方法采用QP-SO算法尋找支持向量機(jī)評(píng)估網(wǎng)絡(luò)安全風(fēng)險(xiǎn)的最優(yōu)參數(shù),僅需40次左右的迭代次數(shù)即可快速獲取最優(yōu)支持向量機(jī)參數(shù)。本文方法所選取QPSO算法具有較高的尋優(yōu)效率,可在較短時(shí)間內(nèi)快速獲取支持向量機(jī)的最優(yōu)參數(shù),提升網(wǎng)絡(luò)安全風(fēng)險(xiǎn)估計(jì)性能。通過(guò)QPSO算法獲取支持向量機(jī)算法最優(yōu)參數(shù)為C=130,σ=135。采用QPSO算法所獲取的支持向量機(jī)最優(yōu)參數(shù)建立網(wǎng)絡(luò)安全風(fēng)險(xiǎn)評(píng)估模型,采用所建立安全風(fēng)險(xiǎn)評(píng)估模型評(píng)估網(wǎng)絡(luò)運(yùn)行5h的安全風(fēng)險(xiǎn)事件數(shù)量,將本文方法與另兩種方法對(duì)比,對(duì)比結(jié)果如圖3所示。圖3實(shí)驗(yàn)結(jié)果可以看出,采用本文方法評(píng)估網(wǎng)絡(luò)安全風(fēng)險(xiǎn)結(jié)果與實(shí)際網(wǎng)絡(luò)安全風(fēng)險(xiǎn)結(jié)果極為接近,波動(dòng)趨勢(shì)具有較高的吻合性。對(duì)比結(jié)果說(shuō)明本文方法可有效預(yù)測(cè)網(wǎng)絡(luò)安全風(fēng)險(xiǎn),預(yù)測(cè)結(jié)果極為可靠,可作為網(wǎng)絡(luò)管理員管理網(wǎng)絡(luò)安全的有效依據(jù)。經(jīng)過(guò)多次測(cè)試,對(duì)比三種方法的網(wǎng)絡(luò)安全風(fēng)險(xiǎn)評(píng)估性能,對(duì)比結(jié)果如圖4所示。圖4實(shí)驗(yàn)結(jié)果可以看出,采用本文方法評(píng)估網(wǎng)絡(luò)安全風(fēng)險(xiǎn),可有效改善所需歷史數(shù)據(jù)較多、對(duì)缺失數(shù)據(jù)較為敏感等缺陷,應(yīng)用于網(wǎng)絡(luò)安全風(fēng)險(xiǎn)評(píng)估時(shí)具有較高可靠性。采用本文方法評(píng)估測(cè)試網(wǎng)絡(luò)于2020年1月3日7:00-24:00共17個(gè)小時(shí)的安全風(fēng)險(xiǎn)情況見(jiàn)表1。針對(duì)表1給出的實(shí)驗(yàn)網(wǎng)絡(luò)安全事件情況表,采用本文方法對(duì)其風(fēng)險(xiǎn)事件攻擊類型進(jìn)行評(píng)估,結(jié)果見(jiàn)表2。分析表2可得,本文方法可評(píng)估安全風(fēng)險(xiǎn)事件,可有效確定網(wǎng)絡(luò)安全風(fēng)險(xiǎn)事件的具體攻擊行為,驗(yàn)證本文方法具有較高的安全風(fēng)險(xiǎn)事件評(píng)估有效性。
4結(jié)束語(yǔ)
網(wǎng)絡(luò)安全風(fēng)險(xiǎn)估計(jì)是目前網(wǎng)絡(luò)安全防御體系中的重要部分。伴隨網(wǎng)絡(luò)中數(shù)據(jù)量的提升,對(duì)網(wǎng)絡(luò)安全風(fēng)險(xiǎn)估計(jì)提出更高要求。充分考慮網(wǎng)絡(luò)運(yùn)行過(guò)程中的攻擊形勢(shì),將大數(shù)據(jù)分析技術(shù)應(yīng)用于網(wǎng)絡(luò)安全風(fēng)險(xiǎn)估計(jì)中,利用大數(shù)據(jù)分析技術(shù)所具有的可處理海量數(shù)據(jù)的優(yōu)勢(shì),充分挖掘網(wǎng)絡(luò)安全事件中所存在的關(guān)聯(lián)規(guī)則,估計(jì)網(wǎng)絡(luò)安全風(fēng)險(xiǎn)。通過(guò)實(shí)驗(yàn)驗(yàn)證所研究方法可實(shí)現(xiàn)網(wǎng)絡(luò)安全風(fēng)險(xiǎn)的有效估計(jì),可保障海量數(shù)據(jù)運(yùn)行環(huán)境下的網(wǎng)絡(luò)安全的有效防護(hù)。
作者:魏利梅 單位:山西警察學(xué)院