數據密集型科學環境下的情報服務與發展論文
大數據時代的到來,使得學術活動的信息數據來源、組成、價值以及處理技術都發生了巨大變化,數據就如傳統價值認識中的“黃金”一樣,變得無比重要和價值巨大[1],這些變化也影響到了學術信息的交流環境,使得科學研究向數據密集型科研轉變,越來越多的科研工作是基于現有數據的重新分析、組織、認識、解析和利用,數據成為了科學研究的基礎。雖然說從目前來看將數據比作“金礦”有夸大之嫌,但也充分的說明了數據的重要作用與價值。同時,我們也看到,在這種數據密集型科學環境下,變化的不只是科學研究,一些服務機構特別是信息服務機構的服務內容、服務方式也在悄然發生著變化,對能為用戶創造價值與創新的科學數據日益重視,基于數據的服務也成為了它們的服務增長點,對新型科學環境下的服務發展學術研究也正在如火如荼的進行之中。基于此,本文從數據密集型科學環境出發,對科學研究的第四范式、數據密集型科學環境的形成與推動因素進行了概述,重點對數據密集型科學環境下的情報服務內容進行了陳述,同時也對情報服務的發展途徑如數據建設、人才建設、協作機制建設進行了分析。
1 數據密集型科學研究興起的社會環境
2007 年,Jim Grey在美國國家研究理事會計算機科學和遠程通訊委員會( NRC- CSTB) 的演講報告中首次提出了以數據密集型計算為基礎的科學研究“第四范式”概念[2],并將其作為與實驗科學、理論推演、計算機仿真三種科研范式平行的科學研究[3],但在對科學研究范式的發展及劃分簡單論述后,并未對第四研究范式的內涵、科學研究現狀等進行深入論述。直到2009 年, 微軟公司的TonyHey、Stewart Tansley和Kristin Tolle主編的《The Fourth Paradigm:Data- intensive Scientific Discovery》(第四范式——數據密集型科學發現)一書,才較為詳細的登載了第四范式的內涵和意義等內容,并從地球與環境、健康與幸福、科學基礎設施、科學交流四個方面展示了69 位學者從不同的視角觀察、理解、分析和探討[4]。
對數據密集型科學研究來說,科學研究第四范式強調傳統的假設驅動將向基于科學數據探索的科學方法方向轉變,并在這種數據的轉變與方法實現中,數據依靠工具獲取、分析與處理,依靠計算機存儲。筆者認為,大數據時代的來臨,數據的來源、類型、存在形態將異常豐富,可以是實驗觀察數據、實驗數據、仿真數據、互聯網數據,也可以是產生于智能終端如智能手機、社交活動如微博、虛擬社區中的信息行為數據等;類型和存在形態可以是已經可以靈活保存于數據庫、機構庫中的結構化數據,也可能是目前只能通過路徑記錄、現場拍攝才能記錄的半結構化數據、非結構化數據。
從數據密集型科學研究的興起與形成來看,數量龐大、類型豐富、價值巨大的數據產生即大數據時代的到來以及一方面產生數據、一方面又能實現對數據管理與應用的現代信息技術更新、發展是數據密集型科學環境興起與發展的根本推動因素,而信息爆炸、關聯數據運動、數據開放運動等直接推動數據密集型科學環境成熟的運動也都功不可沒。
2 數據密集型科學環境下的情報服務
2.1 科學數據服務
2012年6月,美國大學與研究圖書館協會出版了《學術圖書館與科學數據服務》白皮書報告[5],該報告調查了美國和加拿大的大學與研究圖書館協會的351所成員館的科學數據服務情況,結果顯示盡管目前只有少數美國、加拿大的大學與研究圖書館協會成員館開展科學數據服務,但也顯示許多高校圖書館準備在未來一到兩年內開展科學數據服務。這說明在當前的數據密集型環境下,開展科學數據服務將成為情報服務的主要組成部分。數據密集型環境下的科學數據服務,既可以借鑒普渡大學圖書館的D2C2分布式數據保存項目[6],開展諸如情報咨詢、科學數據管理、科學數據查找服務,也可以借鑒澳洲國立大學依靠超級計算機設備進行的存儲服務[7],提供大量范圍內的數據存儲、數據標注服務。且相信隨著技術的發展與用戶的需求變化,在未來的情報服務中,諸如科學數據的開發、發現、引用、標識、分析及技術支持等更大范圍的數據服務都將會實現。
2.2 數據發現服務
產生于大量智能終端、社交網站、活動場所的海量、復雜的半結構化數據、非結構化數據的出現,使得傳統的情報服務中的數據處理與數據服務變得困難,如何在數據密集型的科研環境下為用戶提供數據的發現服務,成為了數據密集型科研環境下的主要情報服務內容之一。Web、本體、XML、RDF、標簽等技術的出現,使得數據資源的共享、檢索、標注與利用更加便捷,實現系統化、語義化、網絡化、自動化的數據發現服務成為了可能,在以谷歌為代表的IT數據發現服務帶領下,業界掀起了基于數據發現服務的數據發現服務系統開發熱潮,國內外研發了一批基于語義擴展搜索的數據發現系統,如ExLibris公司的Primo、EBSCO公司的EBSCO Discovery Service(EDS)、Innovative Interfaces公司的Encore等,OCLC的一站式知識資源發現與服務系統Worldcat Local,提供了全世界近2萬個圖書館的館藏紙質資源和部分數字資源的信息共17億條[8]。在數據密集型科學環境下,數據發現服務不僅能為用戶發現和關聯可能存儲于社會各個行業、多個領域、多個學科的數據知識,也能為用戶發現數據表面、少量數據不易于發現的價值,進而為用戶的市場預測、信息行為等做出態勢分析、前景判斷提供知識與數據支撐。
2.3 知識咨詢服務
一直以來,信息咨詢服務都是情報服務的主要組成部分,也為企業信息分析、情報收集等工作提供巨大的參考與幫助作用,得到了情報服務用戶的高度認可。但在數據密集型環境下,由于提供咨詢服務的數據來源、類型、處理平臺、服務方式都將發生巨大變化,傳統的咨詢工作并不會滿足用戶的需求,因而依賴于海量知識、依靠數據分析系統、為用戶提供解決問題知識的知識咨詢服務將應運而生。與傳統的信息咨詢、參考咨詢相比,知識咨詢服務更具專業化、知識化以及實現多樣化等特點,即需專業的`服務人員借助專業的服務平臺實現對專業學科資源的專業分析,用知識服務平臺實現對知識資源的知識處理并提供用戶知識產品,用多樣化的技術手段來處理多樣化的數據進而通過多樣化的途徑提供多樣化的服務。由于知識咨詢以用戶的知識需求為出發點,以復雜的海量數據為知識來源,以面向大數據的分析、挖掘軟件為工具,以向用戶提供最終可以解決問題的知識產品為目標,因此,知識咨詢將在數據密集型科學環境下廣泛的用于企業情報收集、政府決策分析、個人科研創新等領域。
2.4 學科服務
數據密集型科學環境的興起與發展,使得存在于社會每一個角落的各類數據以及產生于每一個實驗、調查等科研活動的相關數據都可能成為知識創新與科學研究的主要知識來源,但對這些數據、知識的組織與利用并不一定因為科研人員信息素養的水平差異而能成功實現,于是,一些科研院所、大型科研團隊日益重視科研隊伍建設時的圖書館員等能靈活檢索和運用數據資源的團隊組成比例,國外興起的數據監管教育就是順應這種科研人才隊伍的需求而產生的,這類人員的主要職能是利用專業的學科背景知識,運用掌握的信息素養知識,為科研團隊提供專業的學科服務。在未來日益發展的數據密集型科學環境下,這類學科服務將突破目前的第一代、第二代學科服務形式,即圖書館領域的設置學科館員形式與嵌入式學科服務形式,出現情報服務機構與科研團隊合作形式,進而為科研活動提供更為專業、有團隊協作保障的學科服務。
2.5 數據云服務
云計算的發展以及Google、亞馬遜等云計算服務提供商多種云服務平臺的推出,為情報服務的云服務實現提供了便捷條件。由于云服務是將分布式計算、網格計算、并行計算以及Internet結合起來的一種新興的IT資源提供模式,實現了將動態、可伸縮的IT資源以服務方式通過互聯網提供給用戶[9],因此,情報服務對于云計算的應用并不需要昂貴的硬件設備、專業的技術人員以及種類繁多的軟件操作平臺,只需要根據自己的用戶需求特征來租用合適的云平臺及服務,以通過云計算虛擬技術而實現在云計算的技術支撐環境下提供數據的上傳、下載、運算等服務。云服務的模式主要有IaaS(Infrastructure as a Service,基礎設施即服務)、PaaS(Platform as a Service,平臺即服務)、SaaS(Software as a Service,軟件即服務)等三種模式[10]。從目前的云計算服務提供商來看,情報服務的云平臺既可以選擇Google和Amazon等云服務提供商提供的云平臺,大型服務機構也可以借鑒OCLC與美國國會圖書館通過自建云服務平臺來實現對用戶的云服務。
2.6 數據分析服務
在數據密集型科學環境下,不管是對用戶提供諸如上述的科學數據、知識咨詢、數據發現等服務,還是可能出現的如用戶定制的數據關聯、數據發布等服務,數據分析都將是其實現的主要組成部分,只不過常態的科學數據、知識咨詢等服務,情報服務機構的依賴資源是云數據、機構存儲數據與購買數據等,即主要以社會或機構公有數據為主,但用戶的個性化定制如數據關聯等服務可能主要以用戶個體私有數據為主。同時,需要注意的是,數據密集型科學環境下的數據分析,需以一些系統平臺和技術為支撐,如當前運用較多的可視化技術、數據挖掘與語義處理等。
3 數據密集型科研環境下的情報服務發展
3.1 重視對數據資源建設與價值挖掘
IBM的《分析:大數據在現實世界中的應用》白皮書認為數據是大數據時代業務發展的主要驅動因素之一[11],一些IT業發達的國家如美國、印度等近來出現了一批以數據的獲取、聚合、加工為盈利手段的企業,由此可以看出數據在業務發展中的價值,對于提供以數據為知識來源與主要業務實現基礎的情報服務來說更是價值巨大。情報服務機構如圖書館、情報研究所等應認清數據在未來情報服務中的重要性,提高數據收集意識,一方面,對現存結構化數據進行關聯、標注、索引等分析與重組處理,實現數據的關聯化、語義化,以為數據的發現與關聯打下基礎;另一方面,注重隱藏著巨大價值但目前收集幾乎空白的非結構化數據、半結構化數據的建設,為將來的情報服務提供豐富的數據保障。
3.2 重視對人才隊伍的建設與培養
《中國大數據技術與服務市場2012-2016年預測與分析》報告認為“大數據相關人才的欠缺將成為影響大數據市場發展的一個重要因素”[12]。IDC認為中國大數據技術與服務市場將會從2011年的7760萬美元快速增長到2016年的6.16億美元,同時麥肯錫 (McKinsey)也認為到2018年,美國需要14~19萬名具有“深度分析”經驗的工作者,以及150萬名更加精通數據的經理人。而多種數據顯示這類工作人員非常稀缺,如著名的國際研究暨顧問機構Gartner就認為只有1/3的新的工作崗位能雇傭到熟悉大數據技能的IT專業人員[13]。人才問題同樣也會影響到未來數據密集型科學環境下基于大數據的情報服務,因為對數據分析、數據發現等情報服務來說,其不僅要有傳統情報服務的信息檢索、組織等信息素養,還需掌握對大數據的平臺分析等技術,更要在學科服務中具備一定的專業知識。要滿足這種服務業務的發展需要,情報機構進行人才引進與人才培養是唯一的兩條出路,并且需相輔相成,即一方面,引進一些IT服務商的數據科學家、數據工作者以及高校數據監護、數據監管專業的畢業生,另一方面,選擇與高校、IT公司合作,進行現有人才的培訓培養。
3.3 重視情報服務合作機制的構建
大數據時代的數據特點決定了數據的收集、利用都需以機構間、團隊間的合作為基礎,因此,在數據密集型科學環境下,情報機構既需要在數據資源上實現互相的共建共享以避免出現資源重復建設,還需在人才培訓、技術合作上實現互補,以通過資源共享、機構協作實現用戶需求的最大滿足。同時,開展校際合作、校企合作也是一個新的發展思路。這些合作機制的建立,一方面將進一步增強數據資源的互補性,拓展數據資源體系范圍,充分發揮科學數據的使用價值;另一方面,合作協作也將增強人才隊伍實力,為情報服務的開展拓寬了人才隊伍知識領域,提高服務能力。
4 結語
大數據時代才剛剛來臨,科學研究的第四范式也尚處于日益成熟階段,數據密集型科學環境的發展還并不成熟,數據的價值也未在諸多領域得到體現,但隨著數據密集型科學環境的日益成熟與數據價值的日益體現,情報服務的數據服務價值也會被社會廣泛認可,適應用戶與社會發展需求的服務內容創新、方向轉變更將必不可少,重視數據資源、人才與合作機制建設,迎接日益社會發展步伐的需求挑戰,將是情報服務機構搶占先機的關鍵決策。
【數據密集型科學環境下的情報服務與發展論文】相關文章:
數據資源管理下科技情報服務研究論文10-22
大數據環境下的數據安全研究論文04-14
大數據環境下云會計的論文06-10
大數據環境下我國商務管理發展研究論文10-28
創優環境科學發展論文04-22
云計算環境下的數據挖掘研究論文04-14
分析論文:云計算環境下大數據06-26
草地環境科學發展分析的論文04-16
環境科學概況及發展趨勢論文04-13