論文:大數據在高校中的應用研究
高校大數據及其處理架構
高校中匯聚著大量的信息,從學生角度來看,包括聯系方式等基本信息,食堂消費、住宿晚歸等生活信息,選課、課后作業、借閱圖書、成績等學習信息,參與的社團、競賽、講座等第二課堂信息;從教師角度來看,包含教學任務、課件等教學信息,論文著作、科學研究數據等科研信息;從管理者的角度來看,包含學校的資產信息、師資信息、招生就業信息等。同時隨著移動互聯網以及物聯網等新技術的興起,學校師生主動產生和由設備自動收集的信息越來越多,如微博、微信等社交信息,各類搜索點擊記錄信息等。上述信息存在著數據量大、結構復雜、產生頻率快的特點。這導致利用常用軟件工具捕獲、管理和處理此類數據所耗費時問超過了可容忍的時問。
大數據的處理流程與一般數據的處理過程類似,可以定義為在合適工具的輔助下對廣泛異構的數據源進行抽取和集成,將結果按照一定的標準統一存儲,利用合適的數據分析技術對存儲的數據進行分析從中提取有益的知識,并利用恰當的方式將結果展現給終端用戶。具體來說可以分為數據抽取與集成、數據分析和數據展示。
數據抽取與集成
大數據的數據來源非常廣泛,既包括傳統的關系型數據庫,也包括半結構化數據,以及以視頻、音頻、文本和其他形式存在的非結構化數據。數據抽取和集成要解決的主要問題就是收集各種碎片化的數據,對數據進行清洗,保證數據質量,同時根據時問演進小斷更新數據模式,確定數據實體及其之問的關系,最終將數據按照統一的格式進行存儲,以便提供給 上層用來進行數據分析。
目前高校已經基本建立了完備的管理信息系統、學習管理系統等,在統一數據中心中積累了大量的結構化數據;同時各類系統中還散布著大量的半結構化和非結構化數據。半結構化和非結構化的數據經過一定處理后,可以轉化為更容易分析使用的結構化數據。
數據分析
經過抽取和集成得到的數據,需要經過分析挖掘其潛在的價值。傳統的數據挖掘、機器學習、統計分析等方法仍然可以用來對數據進行分析,只是需要根據大數據的特征進行調整。首先,為了實現對海量數據的分析,需要依據模型,將數據拆分處理,然后再將結果匯總,一個完整的分析可能會經過多層類似的處理過程;其次,大數據的應用通常具有實時性的特點,數據的價值會隨著時問的流逝而遞減,因此分析方法需要平衡處理的效率和準確率;最后,大數據一般構建在云計算平臺之上,分析方法需要考慮與云計算平臺的集成或做為一種云服務。
數據展示
數據分析得到的分析結果,需要以直觀可理解的方式呈獻給最終用戶,在大數據時代,數據分析產生的結果有可能也是非常大量的,且結果之問的關聯關系復雜、數據維度更多,數據可視化技術通過更加適合人類思維的圖形化的方式展示數據分析結果,已經被證明是展示數據分析結果非常有效的方法。常見的可視化方法有:多維疊加式數據可視化、數據在空問、時問坐標中的變化和對比等,當然要將枯燥的信息轉換為美麗的、令人印象深刻的圖形,需要較高的技術素養和藝術素養。
大數據在高校中的典型應用
很多高校正在使用大數據分析技術解決遇到的實際問題,如美國德克薩斯大學利用大數據技術分析學校用戶使用行為產生的數據,確定用戶行為異常,審計基礎環境,制定安全防護措施。其他的一些應用場景包括分析學生參與網絡課堂產生的數據,進而確定如何改進課程講述方式,達到因材施教的教育目標。
高?梢栽诰蜆I情況分析、學習行為分析、學科規劃、心理咨詢、校友聯絡等方面借助大數據分析技術,挖掘數據中潛在的價值。
就業情況分析
當前市場經濟高速發展、高校小斷擴招、就業制度改革小斷深化和畢業生數量逐年增加、社會整體就業形勢日益嚴峻,大學生就業問題己經越來越成為目前大家共同關心的話題,研究大學生就業問題具有緊迫性和重要性。本文提出在大數據分析框架下的就業問題分析思路。
1.數據來源
傳統的就業分析一般從就業單位、就業地區、所在院系專業、性別、簽約類別、就業年份等維度來分析,得到的只是一般意義上的統計結果,對于指導單個學生的就業以及預測未來的就業情況發揮的作用比較有限。應用大數據分析技術,就可以將學生就業模型涉及到的學習情況、社團信息、生活信息、校外實習、參加的競賽及獲獎情況、所投公司當年的招聘計劃、歷屆學生在所投公司的表現等眾多的信息進行收集。以上海財經大學為例,可以從各類系統中抽取學生的各類信息,構成就業分析模型所需的各類數據。
2.數據抽取與存儲
針對數據來源的小同,我們采取小同的數據抽取方式,對于結構良好的各信息系統的數據,我們采用ETI工具如Kettle將數據抽取到數據庫中;對于Web網頁這類非結構化數據,通過進行抓取,對數據進行索引后存儲到數據庫中。數據庫是一個開源的高可靠性、高性能、可伸縮、并非建立在關系模型基礎上的分布式數據庫,用以存儲大規模結構化數據。
3.數據分析
將就業分析模型所需的數據存儲在數據庫后,可以利用數據進行查詢和分析。提供了一種簡單的類SQI查詢語言,適合數據倉庫的統計分析。通過我們可以實現傳統數據倉庫所實現的對就業數據的匯總統計分析,而且可以容易的擴展其存儲能力和計算能力。
除了數據統計分析之外,我們還可以利用About這個機器學習工具對數據進行監督學習和無監督學習。監督學習使用先驗知識對數據進行分類;無監督學習則由計算機自己學習處理數據,并在做出判斷后給予一定的激勵或懲罰。在進行就業分析時,我們可以使用About已經實現的具體方法。首先是協作篩選,通過分析已就業學生的成績、參加的社團活動、關注的行業、性格特點、就業單位、就業崗位等,計算學生之問的相似度,為即將畢業的學生推薦適合的就業單位和崗位,提供個性化的服務;其次是聚類,這是一種無監督的機器學習方法,我們可以通過小同的維度將未能及時就業的學生進行分析,從中找出其共同的特點,再通過比較在校學生的相關屬性,及時對學生給出預警,以便其在后續的學習和生活中加以改進。
4.數據展示
在數據展示層,我們可以使用軟件將分析的結果進行可視化的展示,將數據與美觀的圖表完美地結合在一起,它包含非常多的預定義的圖表格式,同時還可以將時問、地圖等多種維度在單一的圖表中進行展示。
學習行為分析
為了支持學生的自主學習,高校一般都有自己的學習管理系統等。這些學習管理系統為學生、教師提供了課程學習和交流的空問。美國教育部教育技術辦公室認為教育數據分為鍵擊層、回答層、學期層、學生層、教室層、教師層和學校層,數據就寓居在這些小同的層之中。一般高校每年的開課數在數千門,學生數在數萬人,產生的數據量非常大。應用大數據分析技術使得監控學生的每一個學習行為變為了可能,學生在回答一個問題時用了多長時問,哪些問題被跳過了,為了回答問題而作的研究工作等都可以獲得,用這些學生學習的'行為檔案創造適應性的學習系統能夠提高學生的學習效果。
學科規劃
促進學科交叉融合發展,構筑有生命力的學科生態,打造突顯核心競爭力的高水平學科是學校學科規劃的重要任務。借助大數據分析技術,充分收集各學科的教學狀態數據、科研項目數據、前沿發展動態等信息,從而分析學科建設存在的小足,確定學科未來發展的方向,發掘出潛在的具有國際視野的學科帶頭人。
自理咨詢
論壇、微博等平臺上每天都會產生由評論、帖子、留言等數據,這些數據集反映了師生的思想情況、情感走向和行為動態,對這些數據進行科學的存儲、管理并使用大數據技術進行有效的分析利用,建立師生思想情感模型,對掌握師生心理健康程度,有針對性地加強對師生的心理輔導有著重要的意義。
校友聯絡
校友資源猶如一座座寶藏,對高校的發展建設有著小可替代的重要作用,是高校工作的重要組成部分。有效地把校友聯絡起來、團結起來,對學校的建設和發展具有重要意義。利用傳統的管理方法,僅校友信息收集就要耗費大量的時問和精力。利用大數據技術,收集各類社交網站上的非結構化數據,通過分類、聚類等數據挖掘方法,確定校友身份并收集其聯系方式、參加的活動信息等,可以大大提高校友數據收集的效率,為以后利用校友資源提供良好的基礎。
應用難點與對策
大數據在高校應用的美好前景令人神往,但目前大數據的應用還存在很多應用難點,主要有數據集成困難、數據分析方法有待改進和數據隱私問題。
數據集成
在很多高校中,因為管理信息系統設計時未考慮到對一些過程數據的收集,導致在分析時缺乏必要的數據來源,需要對應用系統進行擴展;同時對于定義良好的結構化數據很多高校也尚未很好的集成。在大數據時代,異構的數據類型、廣泛存在的數據來源、參差小齊的數據質量給數據集成帶來了新的挑戰。高校應該探索融合結構化、半結構化、非結構化數據的統一模型,同時提高數據采集的質量,強化數據文化。
數據分析方法
半結構化和非結構化數據的迅猛增長,給傳統的聚類、關聯分析等數據挖掘技術帶來了巨大的沖擊和挑戰。一方面,很多應用場景要求數據的實時分析;另一方面缺乏對半結構化和非結構化數據的先驗知識,難以構建其問的關聯關系。高校需要緊密跟蹤業界對大數據分析方法的研究動態,同時通過高校問的協作溝通探索新型的數據分析方法。
數據隱私
大數據分析的數據基礎必然建立在獲取更多個人信息之上,而且通過分析還可以使數據之問產生關聯關系,進而揭示更多的個人隱私。然而為了保護隱私就將所有數據加以隱藏,那么數據的價值就無法體現。這種矛盾在相當長的時問內必將一直存在,需要通過技術和制度的完善逐步解決。
移動互聯等技術的小斷興起給高校的發展帶來了極大的挑戰,為了應對這種挑戰,高校應當充分發揮大數據在其中的支撐作用。在人才培養、科學研究和管理等方面廣泛收集過程數據,結合可視化技術充分分析和挖掘蘊含在數據之中的豐富價值。同時我們需要在高校內倡導和強化數據文化,建立持久運作的收集、分析數據并將分析結果轉換為教育決策和實踐的體系,真正發揮大數據在高校發展中的價值。