公務(wù)員期刊網(wǎng) 論文中心 正文

學(xué)生信息管理微信小程序數(shù)據(jù)獲取構(gòu)建

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了學(xué)生信息管理微信小程序數(shù)據(jù)獲取構(gòu)建范文,希望能給你帶來靈感和參考,敬請閱讀。

學(xué)生信息管理微信小程序數(shù)據(jù)獲取構(gòu)建

摘要:隨著信息化建設(shè)步伐的不斷加快,為滿足校園信息化建設(shè)的要求,需要為學(xué)生開發(fā)一款基于微信小程序的學(xué)生信息管理平臺,整合學(xué)校各信息系統(tǒng)資源,方便學(xué)生使用,減少不必要的操作。該平臺將采用python爬蟲的方式,在教務(wù)系統(tǒng)、學(xué)工管理系統(tǒng)、實(shí)習(xí)平臺等獲取相關(guān)的數(shù)據(jù),利用爬蟲實(shí)現(xiàn)帶驗(yàn)證碼和反爬機(jī)制的虛擬登陸,并通過scrapy框架獲取系統(tǒng)中的數(shù)據(jù),實(shí)現(xiàn)資源整合。

關(guān)鍵詞:python;爬蟲;scrapy框架;資源整合

1引言

隨著學(xué)校信息化建設(shè)不斷推進(jìn),各類系統(tǒng)平臺不斷開發(fā)并投入使用,提高了學(xué)校師生的信息化水平。但在進(jìn)行相關(guān)系統(tǒng)平臺建設(shè)的過程中,不同的部門對系統(tǒng)平臺有各自的要求,這樣導(dǎo)致學(xué)校的系統(tǒng)各自獨(dú)立,數(shù)據(jù)不互通,登錄賬戶也各不相同。如涉及學(xué)生的系統(tǒng)就包含了學(xué)工系統(tǒng)、教務(wù)管理系統(tǒng)、實(shí)習(xí)系統(tǒng)等,導(dǎo)致學(xué)校存在數(shù)據(jù)孤島的問題,數(shù)據(jù)在不同部門相互獨(dú)立存儲,獨(dú)立維護(hù),彼此間相互孤立,形成了物理上的孤島。為了解決數(shù)據(jù)孤島的問題,需要對信息系統(tǒng)數(shù)據(jù)做進(jìn)一步的整合。在節(jié)約學(xué)校開支的前提下,開發(fā)一款基于微信小程序的學(xué)生信息平臺,通過使用python網(wǎng)絡(luò)爬蟲的方式從各個(gè)信息系統(tǒng)進(jìn)行信息的爬取最終整合到一個(gè)平臺上,方便用戶使用。本文將以獲取教務(wù)系統(tǒng)中的課程表為例,探討如何通過爬蟲,采用模擬登陸的方式,在微信小程序中快速獲取相關(guān)信息[1-3]。

2爬蟲設(shè)計(jì)

2.1技術(shù)概述

2.1.1SeleniumSelenium是一個(gè)模擬瀏覽器操作的測試工具。使用Selenium,安裝相應(yīng)的瀏覽器驅(qū)動(dòng),便可以直接對瀏覽進(jìn)行操作,就像真正的用戶在操作一樣。兼容市面上各種主流瀏覽器包括IE(7或以上)、MozillaFirefox、Safari、GoogleChrome、Opera等。Selenium主要功能包括:用于檢驗(yàn)開發(fā)項(xiàng)目在不同瀏覽不同系統(tǒng)的兼容情況,利用腳本,使用selenium進(jìn)行模測試工作。通過創(chuàng)建回歸測試檢驗(yàn)用戶需要和軟件性能以檢驗(yàn)系統(tǒng)功能是否正常??梢愿鶕?jù)不同的開發(fā)環(huán)境和編程語言如.NET、JAVA等進(jìn)行測試腳本的錄制工作[4]。

2.1.2requestsrequests是由python編寫的常用的網(wǎng)絡(luò)請求http庫。request代碼編寫簡潔,功能十分強(qiáng)大。在python內(nèi)置模塊的基礎(chǔ)上進(jìn)行高度的封裝,從而使得python進(jìn)行網(wǎng)絡(luò)請求時(shí),變得人性化,使用requests可以輕而易舉完成瀏覽器的任何操作。

2.1.3ScrapyFrameworkScrapy是現(xiàn)在主流的數(shù)據(jù)爬蟲框架,用以提取網(wǎng)絡(luò)中的各種數(shù)據(jù),有著較為廣泛的用途。Scrapy常應(yīng)用于數(shù)據(jù)挖掘、數(shù)據(jù)獲取、數(shù)據(jù)處理數(shù)據(jù)存儲等一系列過程。使用Scrapy框架可以很簡單地實(shí)現(xiàn)從互聯(lián)網(wǎng)中獲取指定網(wǎng)站中的內(nèi)容。

2.1.4TesseractOCRTesseractORC(OpticalCharacterRecognition,光學(xué)字符識別)是一個(gè)用于文字圖形轉(zhuǎn)換的開源引擎,由HP實(shí)驗(yàn)室開發(fā)并由Google進(jìn)行維護(hù)。它可以通過不斷地進(jìn)行機(jī)器訓(xùn)練,通過優(yōu)化訓(xùn)練集,來改善結(jié)果集,從而獲得自己想要的結(jié)果。2.1.5PEEWEEORMPEEWEE是python中常用的數(shù)據(jù)庫映射模塊,是一個(gè)輕量級的ORM,即對象關(guān)系映射(ObjectRelationalMapping,簡稱ORM)。其特點(diǎn)是通過映射關(guān)系對數(shù)據(jù)進(jìn)行操作,使得對各類數(shù)據(jù)庫能夠?qū)崿F(xiàn)兼容,通過映射來實(shí)現(xiàn)對數(shù)據(jù)庫的各種操作,使用戶對于數(shù)據(jù)庫的使用成本大大降低。

2.2系統(tǒng)需求及分析

網(wǎng)絡(luò)爬蟲系統(tǒng)的開發(fā)是否成功取決于系統(tǒng)能否實(shí)現(xiàn)用戶定制功能,達(dá)到預(yù)期設(shè)計(jì)目的。因此,在網(wǎng)絡(luò)爬蟲系統(tǒng)開發(fā)前,需要對該系統(tǒng)需求加以詳盡分析,從而對整體設(shè)計(jì)有一個(gè)清晰的思路。目前,普遍適用的爬蟲系統(tǒng)都是模塊化的。模塊化的程序設(shè)計(jì)有利于代碼塊的測試與維護(hù),而且也進(jìn)一步增加了代碼的適用性。在此基礎(chǔ)上,只要對各個(gè)模塊進(jìn)行組合,就能夠構(gòu)建出一個(gè)完整的爬蟲系統(tǒng)。本文以獲取學(xué)院教務(wù)系統(tǒng)中的課程表為例,開展模塊化的編程設(shè)計(jì)。由于爬取教務(wù)系統(tǒng)中的數(shù)據(jù)前需要進(jìn)行登錄操作,所以想要獲取系統(tǒng)中的相應(yīng)信息就必須解決如何登錄的問題,包括如何自動(dòng)填入用戶賬戶和密碼、如何自動(dòng)識別驗(yàn)證碼等問題[5-6]。

2.3爬蟲設(shè)計(jì)

2.3.1爬蟲模塊介紹要爬取頁面的信息需要借助相應(yīng)的爬蟲模塊,本文所使用到的模塊包括:requests,python中常用的發(fā)起網(wǎng)絡(luò)請求的模塊;Scrapy,python中最主流的爬蟲框架;peewee,輕量級ORM框架,用于python和Mysql等數(shù)據(jù)庫的映射操作;selenuim,用于網(wǎng)頁測試的模塊,使用該模塊來實(shí)現(xiàn)模擬登陸的環(huán)節(jié);Pillow,python中常用的圖片處理模塊,使用該模塊對驗(yàn)證碼進(jìn)行處理;Tesseract,python中圖像識別的模塊,利用OCR光學(xué)字符識別對驗(yàn)證碼進(jìn)行識別。

2.3.2流程分析(1)使用selenium模塊調(diào)用瀏覽器打開指定頁面,利用Xpath定位到用戶名和密碼輸入框,并通過send_key()方法,填入用戶名和密碼。(2)使用Pillow模塊配合selenuim截取頁面中的驗(yàn)證碼部分,通過Pillow對登陸驗(yàn)證碼進(jìn)行預(yù)處理。(3)使用Tesseract-OCR對驗(yàn)證碼進(jìn)行識別。(4)登陸到頁面后保存Cookie和session,通過requests獲取目標(biāo)信息。(5)通過peewee框架將獲取到的內(nèi)容存放到Mysql。數(shù)據(jù)爬取流程如圖1所示。

3系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

為整合校內(nèi)各平臺數(shù)據(jù)資源,降低數(shù)據(jù)孤島的影響,減少學(xué)生因校內(nèi)平臺眾多所帶來的不必要的操作,開發(fā)一款針對學(xué)生的信息管理微信小程序,使得學(xué)生們只需要通過手機(jī)移動(dòng)端,便能獲取到校內(nèi)各平臺數(shù)據(jù)。數(shù)據(jù)獲取作為小程序構(gòu)建最重要的核心內(nèi)容,將通過數(shù)據(jù)爬蟲的方式進(jìn)行獲取。本文以爬取教務(wù)系統(tǒng)中的學(xué)生課程表為例。學(xué)校的教務(wù)網(wǎng)站需要用戶登錄以后才能獲取相應(yīng)用戶的信息,并且該網(wǎng)站的登陸驗(yàn)證采用的是4位數(shù)字加英文混合的驗(yàn)證碼的驗(yàn)證模式。為了解決用戶自動(dòng)登陸的問題,其中如何能夠準(zhǔn)確地識別驗(yàn)證碼將會(huì)是一個(gè)重點(diǎn)。登陸到頁面后,需要獲取目標(biāo)信息——課程表。通過requests請求系統(tǒng)中的課程表頁面URL獲取相關(guān)的信息,通過對頁面的分析,對目標(biāo)頁面發(fā)起請求,需要包含相關(guān)的cookie和header,否則將無法從目標(biāo)頁面獲取想要的信息[7-9]。

3.1登錄信息設(shè)計(jì)

登錄信息主要涉及到登錄頁面中的用戶名、用戶密碼以及驗(yàn)證,只有三者皆輸入正確后,才可以登錄到后臺的頁面。其中用戶名和密碼為確定值,而驗(yàn)證碼是一個(gè)隨機(jī)值,在解決自動(dòng)登陸的環(huán)節(jié)中,主要是解決驗(yàn)證碼的問題。首先通過selenium操控瀏覽器打開教務(wù)系統(tǒng)網(wǎng)站,通過Xpath快速定位到網(wǎng)頁中的用戶名、密碼和驗(yàn)證碼的輸入框。通過send_key()方法,將相關(guān)信息傳入輸入框內(nèi),驗(yàn)證的值則需使用第三方庫進(jìn)行機(jī)器識別。

3.2驗(yàn)證碼處理設(shè)計(jì)

驗(yàn)證碼圖片是頁面代碼動(dòng)態(tài)生成,只能通過selenium定位元素,并配合pillow的crop()方法進(jìn)行截取。由于截取到的二維碼背景帶有感染,直接通過機(jī)器識別會(huì)降低識別率,所以要對圖片進(jìn)行預(yù)處理。通過pillow模塊將截取的二維碼圖片進(jìn)行二值化處理。圖像的二值化,就是將圖像上的像素點(diǎn)的灰度值兩極分化(設(shè)置為0或255,0表示黑,255表示白),也就是將整個(gè)圖像呈現(xiàn)出明顯的只有黑和白的視覺效果。目的是加深字符與背景的顏色差,便于Tesseract的識別和分割。對于閾值的選取,使用0和255的平均值。并通過處理再將背景的干擾項(xiàng)進(jìn)一步清除,如圖2所示。將預(yù)處理完的圖片交由Tesseract-OCR進(jìn)行機(jī)器識別[10]。

3.3信息獲取設(shè)計(jì)

登陸進(jìn)系統(tǒng)后,獲取到頁面的cookie_jar,準(zhǔn)備對目標(biāo)信息進(jìn)行獲取,通過requests的get方法對目標(biāo)url發(fā)起請求并攜帶相應(yīng)的cookie信息,以獲取需要的信息。但實(shí)際操作發(fā)現(xiàn),并不能返回正確的結(jié)果。通過對網(wǎng)頁的分析發(fā)現(xiàn),在發(fā)起requests請求除了要攜帶cookie外,還需要有相應(yīng)的header的referer信息。通過request攜帶相應(yīng)的cookie和header后,便從目標(biāo)url中獲取到想要的數(shù)據(jù)。

3.4信息處理

通過scrapy爬蟲框架,對目標(biāo)url發(fā)起requsets請求獲取想要的數(shù)據(jù),將獲取到信息通過輕量級ORM的框架peewee,存儲到目標(biāo)Mysql中。

4結(jié)束語

本文以爬取學(xué)校教務(wù)系統(tǒng)數(shù)據(jù)據(jù)為例,介紹了模擬登陸爬取數(shù)據(jù)的程序設(shè)計(jì),并作為學(xué)生信息系統(tǒng)微信小程序的數(shù)據(jù)來源。該系統(tǒng)通過爬蟲獲取數(shù)據(jù)構(gòu)建,解決了學(xué)校平臺眾多、數(shù)據(jù)孤立不互通等問題,幫助學(xué)生們減少了許多不必要的操作,在小程序中集中數(shù)據(jù)呈現(xiàn)給學(xué)生,方便操作。

參考文獻(xiàn)

[1]陳紅菊.高職院校學(xué)生綜合信息管理系統(tǒng)的設(shè)計(jì)和應(yīng)用.科技展望,2016,26(24):150,152

[2]葛秀峰,戴志鋒.基于微信小程序的“掌上經(jīng)院”校園服務(wù)平臺.科技創(chuàng)新與應(yīng)用,2020(08):80-81

[3]胡玉峰.基于微信的校園信息服務(wù)平臺設(shè)計(jì)與實(shí)現(xiàn)[碩士學(xué)位論文].蘭州交通大學(xué),蘭州,2015

[4]樊濤,趙征,劉敏娟.基于Selenium的網(wǎng)絡(luò)爬蟲分析與實(shí)現(xiàn).電腦編程技巧與維護(hù),2019(09):155-156,170

[5]劉波,黃情琴,李鑫科,劉連滴,蘇澤利,余文森.微信校園便捷服務(wù)平臺的開發(fā)與實(shí)現(xiàn).現(xiàn)代信息科技,2019,3(22):86-88,91

[6]邵亞麗,黃菲,黃宇涵,陳曉純.基于微信小程序的校園心理服務(wù)系統(tǒng).計(jì)算機(jī)時(shí)代,2020(02):33-35

[7]王海玲,周志彬.基于Scrapy框架的爬蟲設(shè)計(jì).軟件導(dǎo)刊,2020,19(04):224-228

[8]常逢佳,李宗花,文靜,常逢錦.基于Python的招聘數(shù)據(jù)爬蟲設(shè)計(jì)與實(shí)現(xiàn).軟件導(dǎo)刊,2019,18(12):130-133

[9]莊旭菲,田雪.基于Scrapy和Elasticsearch的校園網(wǎng)搜索引擎的研究與實(shí)現(xiàn).科技資訊,2019,17(29):12-15

[10]潘浩,李蘭.基于Tesseract引擎樣本訓(xùn)練的驗(yàn)證碼識別.信息與電腦(理論版),2020,32(01):138-139,142

作者:郝佳睿 單位:廣東食品藥品職業(yè)學(xué)院軟件學(xué)院