“大數(shù)據(jù)”全在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的關(guān)系,然而直到最近,我們對此似乎還是難以把握。 IBM的資深“大數(shù)據(jù)”專家杰夫·喬納斯( Jeff Jonas)提出要讓數(shù)據(jù)“說話”。從某種層面上來說,這聽起來很平常。人們使用數(shù)據(jù)已經(jīng)有相當(dāng)長一段時間了,無論是日常進(jìn)行的大量非正式觀察,還是過去幾個世紀(jì)里在專業(yè)層面上用高級算法進(jìn)行的量化研究,都與數(shù)據(jù)有關(guān)。
在數(shù)字化時代,數(shù)據(jù)處理變得更加容易、更加快速,人們能夠在瞬間處理成千上萬的數(shù)據(jù)。但當(dāng)我們談?wù)撃堋罢f話”的數(shù)據(jù)時,我們指的遠(yuǎn)遠(yuǎn)不止這些。
實際上,大數(shù)據(jù)與三個重大的思維轉(zhuǎn)變有關(guān),這三個轉(zhuǎn)變是相互聯(lián)系和相互作用的。
·首先,要分析與某事物相關(guān)的所有數(shù)據(jù),而不是依靠分析少量的數(shù)據(jù)樣本。
·其次,我們樂于接受數(shù)據(jù)的紛繁復(fù)雜,而不再追求精確性。
·最后,我們的思想發(fā)生了轉(zhuǎn)變,不再探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。
本章就將介紹第一個轉(zhuǎn)變:利用所有的數(shù)據(jù),而不再僅僅依靠一小部分?jǐn)?shù)據(jù)。
很長一段時間以來,準(zhǔn)確分析大量數(shù)據(jù)對我們而言都是一種挑戰(zhàn)。過去,因為記錄、儲存和分析數(shù)據(jù)的工具不夠好,我們只能收集少量數(shù)據(jù)進(jìn)行分析,這讓我們一度很苦惱。為了讓分析變得簡單,我們會把數(shù)據(jù)量縮減到最少。這是一種無意識的自?。何覀儼雅c數(shù)據(jù)交流的困難看成是自然的,而沒有意識到這只是當(dāng)時技術(shù)條件下的一種人為的限制。如今,技術(shù)條件已經(jīng)有了非常大的提高,雖然人類可以處理的數(shù)據(jù)依然是有限的,也永遠(yuǎn)是有限的,但是我們可以處理的數(shù)據(jù)量已經(jīng)大大地增加,而且未來會越來越多。
在某些方面,我們依然沒有完全意識到自己擁有了能夠收集和處理更大規(guī)模數(shù)據(jù)的能力。我們還是在信息匱乏的假設(shè)下做很多事情,建立很多機(jī)構(gòu)組織。我們假定自己只能收集到少量信息,結(jié)果就真的如此了。這是一個自我實現(xiàn)的過程。我們甚至發(fā)展了一些使用盡可能少的信息的技術(shù)。別忘了,統(tǒng)計學(xué)的一個目的就是用盡可能少的數(shù)據(jù)來證實盡可能重大的發(fā)現(xiàn)。事實上,我們形成了一種習(xí)慣,那就是在我們的制度、處理過程和激勵機(jī)制中盡可能地減少數(shù)據(jù)的使用。為了理解大數(shù)據(jù)時代的轉(zhuǎn)變意味著什么,我們需要首先回顧一下過去。