這樣大的數據量意味著什么?如果把這些數據全部記在書中,這些書可以覆蓋整個美國52次。如果將之存儲在只讀光盤上,這些光盤可以堆成五堆,每一堆都可以伸到月球。公元前3世紀,埃及的托勒密二世竭力收集了當時所有的書寫作品,所以偉大的亞歷山大圖書館可以代表世界上所有的知識量。但當數字數據洪流席卷世界之后,每個地球人都可以獲得大量數據信息,相當于當時亞歷山大圖書館存儲的數據總量的320倍之多。
事情真的在快速發(fā)展。人類存儲信息量的增長速度比世界經濟的增長速度快4倍,而計算機數據處理能力的增長速度則比世界經濟的增長速度快9倍。難怪人們會抱怨信息過量,因為每個人都受到了這種極速發(fā)展的沖擊。把眼光放遠一點,我們可以把時下的信息洪流與1439年前后古登堡發(fā)明印刷機時造成的信息爆炸相對比。歷史學家伊麗莎白·愛森斯坦(Elizabeth Eisenstein)發(fā)現,1453—1503年,這50年之間大約有800萬本書籍被印刷,比1 200年之前君士坦丁堡建立以來整個歐洲所有的手抄書還要多。換言之,歐洲的信息存儲量花了50年才增長了一倍(當時的歐洲還占據了世界上大部分的信息存儲份額),而如今大約每三年就能增長一倍。
這種增長意味著什么呢?彼特·諾維格(Peter Norvig)是谷歌的人工智能專家,也曾任職于美國宇航局噴氣推進實驗室,他喜歡把這種增長與圖畫進行類比。首先,他要我們想想來自法國拉斯科洞穴壁畫上的標志性的馬。這些畫可以追溯到一萬七千年之前的舊石器時代。然后,再想想一張馬的照片,想想畢加索的畫也可以,看起來和那些洞穴壁畫沒有多大的差別。事實上,畢加索看到那些洞穴壁畫的時候就曾開玩笑說:“自那以后,我們就再也沒有創(chuàng)造出什么東西了?!?/p>
他的話既正確又不完全正確。你回想一下壁畫上的那匹馬。當時要畫一幅馬的畫需要花費很久的時間,而現在不需要那么久了。這就是一種改變,雖然改變的可能不是最核心的部分——畢竟這仍然是一幅馬的圖像。但是諾維格說,想象一下,現在我們能每秒鐘播放 24幅不同形態(tài)的馬的圖片,這就是一種由量變導致的質變:一部電影與一幅靜態(tài)的畫有本質上的區(qū)別!大數據也一樣,量變導致質變。物理學和生物學都告訴我們,當我們改變規(guī)模時,事物的狀態(tài)有時也會發(fā)生改變。
我們就以納米技術來為例。納米技術就是讓一切變小而不是變大。其原理就是當事物到達分子的級別時,它的物理性質就會發(fā)生改變。一旦你知道這些新的性質,你就可以用同樣的原料來做以前無法做的事情。銅本來是用來導電的物質,但它一旦到達納米級別就不能在磁場中導電了。銀離子具有抗菌性,但當它以分子形式存在的時候,這種性質會消失。一旦到達納米級別,金屬可以變得柔軟,陶土可以具有彈性。同樣,當我們增加所利用的數據量時,我們就可以做很多在小數據量的基礎上無法完成的事情。