- 相關推薦
圖書館對學生學業(yè)成效貢獻的大數(shù)據(jù)分析平臺構論文
高校圖書館因擁有豐富的數(shù)字資源和良好的學習環(huán)境,成為學校師生學習和休閑的重要場所.學生作為高校圖書館服務對象主體之一,其學業(yè)和高校圖書館所提供的服務必然存在一定的關系,因此圖書館對學生學業(yè)成效貢獻研究是指導高校圖書館投入產(chǎn)出的重要組成部分
大數(shù)據(jù)技術作為一種新興的海量數(shù)據(jù)分析工具越來越受到各行各業(yè)的重視.互聯(lián)網(wǎng)企業(yè)Google及Facebook之所以取得令人矚目的成績,其核心的本質(zhì)就是其公司記錄和分析了用戶的行為大數(shù)據(jù),從而精確掌握用戶行為并形成預判.
由此可見,大數(shù)據(jù)技術對于海量、高速發(fā)展的數(shù)據(jù)具有很好的分析和管理能力,它被用來研究圖書館用戶行為的“大數(shù)據(jù)”是最佳選擇,研究成果可以為高校圖書館服務決策提供客觀的依據(jù),具有重要理論研究意義和實際應用價值.
1大數(shù)據(jù)技術
大數(shù)據(jù)技術是一系列收集、存儲、管理、處理、分析、共享和可視化技術的集合.大數(shù)據(jù)的關鍵技術有很多,如借鑒生物界的進化規(guī)律演化的隨機化搜索方法已被人們廣泛應用于組合優(yōu)化、機器學習、信號處理、自適應控制等領域;再如分布式技術包含分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、分布式計算框架等,其已經(jīng)全面運用于各類大數(shù)據(jù)應用中.大數(shù)據(jù)價值的完整體現(xiàn)則需要多種技術的協(xié)同,總的來說可以歸納為以下幾種:
(1)分布式技術.最典型的是Apache基金會的Hadoop大數(shù)據(jù)分布式處理軟件框架,主要延續(xù)了Google分布式文件系統(tǒng)GFS的開源思想、分布式計算框架MapReduce和分布式數(shù)據(jù)庫BigTable的實現(xiàn)機理,開發(fā)了自有的產(chǎn)品--HDFS分布式文件系統(tǒng)、MapReduce分布式編程框架和HBase分布式數(shù)據(jù)庫.
(2)大數(shù)據(jù)預處理技術.大數(shù)據(jù)的一個重要特點是多樣性,這就意味著數(shù)據(jù)來源極其廣泛、數(shù)據(jù)類型極為繁雜,這種復雜的數(shù)據(jù)環(huán)境給大數(shù)據(jù)處理帶來了極大的挑戰(zhàn).所以在分析大數(shù)據(jù)前,首先必須對海量數(shù)據(jù)源進行預處理,以保證數(shù)據(jù)質(zhì)量及可信性.
大數(shù)據(jù)挖掘技術.數(shù)據(jù)挖掘是整個大數(shù)據(jù)處理流程的核心,因為大數(shù)據(jù)的價值產(chǎn)生于挖掘過程.數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、P逭機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程.大數(shù)據(jù)挖掘的算法眾多,其中(1)以分類算法、聚類挖掘算法、關聯(lián)挖掘算法、序列挖掘算法最為主流.
2圍書館大數(shù)據(jù)分析面臨的問題及數(shù)據(jù)構成
2.1圖書館大數(shù)據(jù)分析面臨的問題
大數(shù)據(jù)時代的圖書館讀者行為大數(shù)據(jù)具有數(shù)據(jù)海量、類型復雜、處理速度快和價值密度低的特點,要對這些大數(shù)據(jù)進行統(tǒng)一的存儲與分析,對圖書館來說有著極大的挑戰(zhàn)性.以下是3個亟待解決問題:⑴數(shù)據(jù)的存儲能九學生在圖書館的所有行為活動都將產(chǎn)生數(shù)據(jù),數(shù)據(jù)量已由TB級升至PB級,而且還在源源不斷地增加,數(shù)據(jù)量的增長速度已遠遠大于存儲能力的增長速度.(2)數(shù)據(jù)類型復雜繁多.學生對圖書館的利用行為數(shù)據(jù)不僅僅是簡單的二維表格式存儲的結構化數(shù)據(jù),還有以文本、圖片、XML文檔、JSON文檔、日志文件和音頻/視頻等半結構化和非結構化數(shù)據(jù),關系型數(shù)據(jù)庫已經(jīng)無法有效管理這些數(shù)據(jù).(3)數(shù)據(jù)處理的實時性.大數(shù)據(jù)時代強調(diào)的是數(shù)據(jù)處理的及時有效,圖書館要求大數(shù)據(jù)分析平臺可以快速地獲取、存儲和分析學生的行為數(shù)據(jù),為圖書館提供快速的決策支持.
面對上述問題,傳統(tǒng)數(shù)據(jù)分析工具已不再適合,而Hadoop大數(shù)據(jù)分布式存儲與計算框架能很好地解決了這些問題,因此基于Hadoop建立統(tǒng)一的圖書館大數(shù)據(jù)存儲和分析平臺變得尤為迫切.
2.2圖書館大數(shù)據(jù)的構成分析
針對目前寧波大學在校的本科學生,將其對圖書館利用行為和學業(yè)成效相關數(shù)據(jù)(2010?2014年)作為此次實驗的數(shù)據(jù)源.經(jīng)過分析,確定數(shù)據(jù)源由學生個人信息、學生學業(yè)相關數(shù)據(jù)及圖書館利用行為數(shù)據(jù)三部分組成,數(shù)據(jù)類型包括結構化的二維表數(shù)據(jù)和非結構化的日志數(shù)據(jù),數(shù)據(jù)總量共計6108萬條記錄.其中,學生學業(yè)相關完整數(shù)據(jù)有120萬條記錄;圖書館利用行為數(shù)據(jù)包括從圖書館門禁系統(tǒng)(357萬)、閱覽室座位管理系統(tǒng)(320萬)、圖書借閱系統(tǒng)(247萬)、數(shù)字資源訪問日志(5064萬)等途徑獲取學生的圖書館服務數(shù)據(jù)共計5988萬條記錄,為圖書館服務對學生學業(yè)成效貢獻研究提供基礎的大數(shù)據(jù)參考樣本.
從上述統(tǒng)計來看,實驗涉及到的數(shù)據(jù)量級已在十億字節(jié)以上,而且還在隨著時間的推移成線性增長,因此定期將相關系統(tǒng)中每天生成的數(shù)據(jù)導入Hadoop大數(shù)據(jù)平臺成為必然的選擇.目前此次實驗數(shù)據(jù)的收集整理工作已經(jīng)基本完成,初步擬定大數(shù)據(jù)主題分析的內(nèi)容見表1.
高校大學生學業(yè)成效主要由學業(yè)成績、獎勵情況和科研能力三部分組成.學業(yè)成績主要是學生的在校的各類專業(yè)課和選修課的考試成績積點分,獎勵情況是在校期間參加社團活動、校級活動等獲得的獎勵或榮譽稱號,科研能力是指參與科研項目或發(fā)表論文等.
圖書館利用行為此內(nèi)容,并綜合已有的相關研究關注的內(nèi)容,再結合寧波大學的實際情況,考慮選取以下幾方面:(1)X寸紙質(zhì)館藏的利用,包括入館記錄(室內(nèi)閱讀情況)和借閱記錄等;(2)對閱覽室的利用,包括入室記錄和在館時間(座位管理系統(tǒng)記錄情況)等;(3)數(shù)字資源的利用,包括數(shù)據(jù)庫檢索次數(shù)和全文下載次數(shù)等;(4)其他,如對網(wǎng)絡的利用等.
上述是高校圖書館服務對學生學業(yè)成效貢獻研究中主題分析的相關內(nèi)容,但在實際的分析建模過程中,可以進行適當?shù)娜∩峄蛟黾?
3圖書館成效貢獻的大數(shù)據(jù)分析平臺構建
3.1圖書館大數(shù)據(jù)分析平臺的總體架構
基于Hadoop的圖書館大數(shù)據(jù)分析平臺主要分為兩層一大數(shù)據(jù)預處理層和主題模型構建層,自下往上每層都為上層提供服務.整體的架構設計如圖1所示.
3.2圖書館大數(shù)據(jù)預處理方案的設計
圖書館大數(shù)據(jù)預處理層主要是利用Hadoop集群在存儲和計算能力的優(yōu)越性,并結合大數(shù)據(jù)預處理技術,來對學生圖書館活動及學業(yè)數(shù)據(jù)進行預處理?具體的設計方案流程如圖2所示.
整個方案采用分層設計思想,底層是Hadoop分布式平臺層.目前實驗采用10臺Linux操作系統(tǒng)的普通服務器機子,并分別在每臺機器上安裝JDK、SSH、Hadoop和Hbase,搭建Hadoop完全分布式運行環(huán)境.整個集群規(guī)劃為:NameNode:10.22.102.46,DataNode1~DataNode9:10.22.102.47?10.22.102.55.HDFS是分布式計算的存儲基礎,主要用于存儲學生圖書館利用行為和學業(yè)成效相關源數(shù)據(jù)氣其采用Master/Slave結構,集群包括1個NameNode和多個DataNodes,NameNode負責整個集群的任務調(diào)度分配,DataNode則是存儲實際的數(shù)據(jù)?MapReduce過程是把從HDFS中待處理的學生圖書館利用行為和學業(yè)成效相關源數(shù)據(jù)集分解成M個小數(shù)據(jù)集進行并行Map操作,輸出中間態(tài)鍵值對<眾,value〉,然后根據(jù)眾值進行Group操作,形成新的小數(shù)據(jù)組集<々,list(value)>,最后將這些小數(shù)據(jù)組集分割成R個集合,進行Reduce操作后存儲到分布式數(shù)據(jù)庫中.Hbase是個基于列存儲的分布式數(shù)據(jù)庫,數(shù)據(jù)行有3種基本類型:行關鍵字、時間戳和列,行關鍵字是數(shù)據(jù)表的唯一標示.海量的學生圖書館利用行為和學業(yè)成效相關數(shù)據(jù)通過MapReduce計算后,可以A:值作為行關鍵字進行分布式存儲,實現(xiàn)海量數(shù)據(jù)的存儲與管理功能.
在Hadoop層之上,則為相應的大數(shù)據(jù)預處理模塊,可以透明地調(diào)用Hadoop底層的計算和存儲能力,包括數(shù)據(jù)清理、變換、集成及歸一化4個子模塊.數(shù)據(jù)清理是刪除那些不符合要求的記錄.數(shù)據(jù)集成是將來自不同應用系統(tǒng)中的數(shù)據(jù)源合并到一起,形成一致的數(shù)據(jù)存儲.數(shù)據(jù)轉換是將學生學業(yè)相關數(shù)據(jù)和圖書館相關應用系統(tǒng)中的數(shù)據(jù)用一定的格式來表示,以方便后期做關聯(lián)挖掘.歸一化處理是把數(shù)據(jù)值控制在一定的范圍內(nèi),保證程序運行時收斂加快.最終將處理好的數(shù)據(jù)通過接口或其他方式輸出.
3.2圖書館服務對學生學業(yè)成效貢獻的主題模型
構建思路
圖書館服務對學生學業(yè)成效貢獻的主題建模主要是利用大數(shù)據(jù)挖掘算法對相關數(shù)據(jù)進行深入分析挖掘,精確發(fā)現(xiàn)數(shù)據(jù)之間的關聯(lián)關系,構建相應的主題分析模型.具體的分析挖掘過程如下:首先選擇合適的聚類算法將學生群體和圖書館服務資源數(shù)據(jù)按照一定的規(guī)則分割成不同的集合,分析不同集合表現(xiàn)出的特征;其次利用關聯(lián)規(guī)則挖掘算法對主題分析的內(nèi)容進行關聯(lián)挖掘,分析各項數(shù)據(jù)之間存在的關系;最后采用決策樹分類算法做一些預測性主題分析?
最終擬定圖書館服務與學生學業(yè)成效的主題模型主要從以下幾個主題分析方向進行構建:
(1)各學院在某學年/學期學生整體學業(yè)成效情況分別與對圖書館利用行為(學院平均進出閱覽室時長、借閱次數(shù)、數(shù)字資源利用)的相關性分析.
(2)各專業(yè)在某學年/學期不同班級間學業(yè)成效分布情況與對圖書館利用行為(班級平均進出閱覽室時長、借閱次數(shù)、數(shù)字資源利用)的相關性分析.
(3)相同專業(yè)學業(yè)成效相差較大的個人與對圖書館利用行為(個人進出閱覽室時長、借閱次數(shù)、數(shù)字資源利用)的相關性分析.
(4)圖書館不同的資源服務(紙質(zhì)館藏、閱覽室利用、數(shù)字資源等)對學生學業(yè)成效貢獻的比重進行分析.
此外,在上述主題分析中分別加入控制因素(性別、生源地以及高考成績),分析它們與學生學業(yè)成效的相關性,建立相應的主題關聯(lián)模型,達到指導服務決策與優(yōu)化資源配置的目的,最終更好的為用戶提供服務資源.
4結語
高校圖書館對學生學業(yè)成效貢獻的研究,以學生作為研究主體,以學生的學業(yè)成效作為關注目標,提出基于Hadoop開源平臺與大數(shù)據(jù)技術進行分析與主題建模,探索學生對于圖書館的利用與其學業(yè)成效之間的關系.在整個主題模型構建過程中,將一些控制因素加入到圖書館與學業(yè)成效的關聯(lián)分析中,根據(jù)分析結果可以反過來指導完善圖書館服務對學生學業(yè)成效貢獻主題模型的構建,從而更全面地對高校圖書館資源與服務在幫助學生提高學業(yè)成效方面的作用進行考察.最終的研究成果可指導圖書館進一步將服務嵌入到學生學習的每一個細節(jié)處,并以此為依據(jù)提升圖書館服務的質(zhì)量與水平.
【圖書館對學生學業(yè)成效貢獻的大數(shù)據(jù)分析平臺構論文】相關文章:
大數(shù)據(jù)云平臺推廣語12-29
檔案信息安全平臺建設初探論文10-11
大數(shù)據(jù)與統(tǒng)計學分析方法比較論文11-13
大數(shù)據(jù)時代銀行信息安全保護探究論文10-11
大數(shù)據(jù)信息安全風險框架及策略論文10-11
網(wǎng)絡平臺在土木工程的應用論文10-13
科技金融平臺運行機制分析論文10-10