傳統(tǒng)的經驗范式與理論范式所針對的科學研究對象都相對簡單,因為僅僅憑著個人的經驗、觀察或實驗,所取得的數(shù)據(jù)是有限的,有限的數(shù)據(jù)能夠刻畫的對象也是有限的。好在當時的科學,其所研究的都屬于線性、孤立、靜止的現(xiàn)象,因此少量的數(shù)據(jù)能夠刻畫出研究對象的特性和規(guī)律。而對理論范式來說,僅僅憑借人類思想的力量,很難超越當時人們的思想高度,所以理論范式也主要是針對簡單現(xiàn)象及其規(guī)律。隨著科學研究的深入,人類所接觸的現(xiàn)象越來越復雜,特別是人們希望將研究對象置于真實世界之中,而不再對研究對象做線性、孤立和靜止的理想化處理,于是傳統(tǒng)的經驗范式和理論范式就難于對付復雜的科研對象。這些研究真實世界的復雜現(xiàn)象的科學被稱為復雜性科學,而過去做了理想化處理的科學如今被統(tǒng)稱為簡單性科學。為了處理真實世界的復雜現(xiàn)象,人們就開始利用計算機的強大功能,通過建立科學模型來模擬真實世界的復雜現(xiàn)象。通過計算機的模擬和計算來模擬復雜研究對象,并通過計算來發(fā)現(xiàn)規(guī)律的這種知識發(fā)現(xiàn)新方法就是格雷所說的第三種科研范式,即計算范式。這種范式是最近數(shù)十年隨著計算機的出現(xiàn)而興起的。
二、數(shù)據(jù)密集型科學發(fā)現(xiàn)的興起
近年來,隨著智能感知技術、計算機技術、網絡技術、云計算等技術的發(fā)展,數(shù)據(jù)的采集、傳輸、存儲和處理等環(huán)節(jié)都發(fā)生了重大變化。智能芯片越來越微小、價格越來越低廉而功能則越來越強大,于是智能芯片被廣泛應用于各個領域,而智能芯片可以自動采集和記錄信息,并且可以將信息自動以數(shù)字化的方式存儲和傳輸,于是產生了大量數(shù)據(jù)。特別是智能手機、智能可穿戴設備、物聯(lián)網以及社交網,隨時隨地都可以產生無數(shù)的數(shù)據(jù)。如今各種觀測、實驗設備(例如天文望遠鏡、粒子加速器、環(huán)境監(jiān)測系統(tǒng))都裝備了智能系統(tǒng),實現(xiàn)了數(shù)據(jù)的智能采集和管理。人們?yōu)g覽網頁、網上購物、視頻音頻播放等一切網上行為也都被自動記錄下來,成為人類的行為數(shù)據(jù)。總之,隨著智能技術和網絡技術的發(fā)展,數(shù)據(jù)規(guī)模發(fā)生了爆炸性的增長,人類迅速進入了大數(shù)據(jù)時代。大數(shù)據(jù)時代的來臨帶來了科研方式的巨大變化,帶來了科學發(fā)現(xiàn)的新方式,這就是格雷最先提出的數(shù)據(jù)密集型科研范式,即第四科研范式。[7]4-6
大數(shù)據(jù)時代的來臨,對科學研究帶來的最大變化是數(shù)據(jù)規(guī)模及其采集方式的不同,并且由此帶來了數(shù)據(jù)性質的變化。過去所說的數(shù)據(jù),是一種狹義的數(shù)據(jù),它是由“數(shù)”和“據(jù)”兩部分構成,“數(shù)”就是數(shù)字,而“據(jù)”就是根據(jù),簡單來說就是表達具體對象的數(shù)字,或者說具有度量單位的數(shù)字。這種狹義的數(shù)據(jù)主要由我們通過設計觀察儀器,或者通過理想化的控制實驗,來獲取測量數(shù)據(jù)。大數(shù)據(jù)時代的數(shù)據(jù)是一種廣義的數(shù)據(jù),不管它是數(shù)字,還是文字、視頻、音頻、圖片等等,任何信息都可以被看作是數(shù)據(jù)。這樣,我們就大大地拓展了數(shù)據(jù)的來源和類型。從來源來說,以往的數(shù)據(jù)都是人們主動觀測的結果,而現(xiàn)在的數(shù)據(jù)主要是智能終端自動生成的結果。除了初始的智能終端是由人研制、安裝外,隨后的數(shù)據(jù)基本上都是由智能終端自動記錄、采集而產生的,不再有人的參與。特別是大數(shù)據(jù)時代的許多數(shù)據(jù)是事物或人類活動的軌跡記錄,是人或物的物理軌跡背后的一條數(shù)據(jù)軌跡,有時也被稱為“數(shù)據(jù)垃圾”或“數(shù)據(jù)塵埃”。用大數(shù)據(jù)的眼光來看,萬事萬物都是數(shù)據(jù),即萬物皆數(shù)據(jù),“萬物皆比特”。[8]由于數(shù)據(jù)類型多樣,數(shù)據(jù)來源廣泛,因此數(shù)據(jù)規(guī)模急劇增長,大數(shù)據(jù)時代因此迅速來臨,并由此也給我們的科學研究帶來了極其豐富的數(shù)據(jù)資源。