正文

《大數(shù)據(jù)時代》小數(shù)據(jù)時代的隨機采樣,最少的數(shù)據(jù)獲得最多的信息(2)

大數(shù)據(jù)時代 作者:(英)維克托·邁爾-舍恩伯格


大數(shù)據(jù)先鋒

穿孔卡片與美國人口普查

美國在 1880年進行的人口普查,耗時 8年才完成數(shù)據(jù)匯總。因此,他們獲得的很多數(shù)據(jù)都是過時的。1890年進行的人口普查,預計要花費 13年的時間來匯總數(shù)據(jù)。即使不考慮這種情況違反了憲法規(guī)定,它也是很荒謬的。然而,因為稅收分攤和國會代表 人數(shù)確定都是建立在人口的基礎上的,所以必須要得到正確的數(shù)據(jù),而且必須是及時的數(shù)據(jù)。美國人口普查局面臨的問題與當代商人和科學家遇到的問題很相似。很明顯,當他們被數(shù)據(jù)淹沒的時候,已有的數(shù)據(jù)處理工具已經(jīng)難以應付了,所以就需要有更多的新技術。

后來,美國人口普查局就和當時的美國發(fā)明家赫爾曼·霍爾瑞斯(Herman Hollerith)簽訂了一個協(xié)議,用他的穿孔卡片制表機來完成 1890年的人口普查。

經(jīng)過大量的努力,霍爾瑞斯成功地在 1年時間內(nèi)完成了人口普查。這簡直就是一個奇跡,它標志著自動處理數(shù)據(jù)的開端,也為后來 IBM公司的成立奠定了基礎。但是,將其作為收集處理大數(shù)據(jù)的方法依然過于昂貴。畢竟,每個美國人都必須填一張可制成穿孔卡片的表格,然后再進行統(tǒng)計。這么麻煩的情況下,很難想象如果不足十年就要進行一次人口普查應該怎么辦。但是,對于一個跨越式發(fā)展的國家而言,十年一次的人口普查的滯后性已經(jīng)讓普查失去了大部分意義。

這就是問題所在,是利用所有的數(shù)據(jù)還是僅僅采用一部分呢?最明智的自然是得到有關被分析事物的所有數(shù)據(jù),但是當數(shù)量無比龐大時,這又不太現(xiàn)實。那如何選擇樣本呢?有人提出有目的地選擇最具代表性的樣本是最恰當?shù)姆椒ā?1934年,波蘭統(tǒng)計學家耶日·奈曼(Jerzy Neyman)指出,這只會導致更多更大的漏洞。事實證明,問題的關鍵是選擇樣本時的隨機性。

統(tǒng)計學家們證明:采樣分析的精確性隨著采樣隨機性的增加而大幅提高,但與樣本數(shù)量的增加關系不大。雖然聽起來很不可思議,但事實上,一個對 1 100人進行的關于“是否”問題的抽樣調(diào)查有著很高的精確性,精確度甚至超過了對所有人進行調(diào)查時的 97% ②。這是真的,不管是調(diào)查 10萬人還是 1億人, 20次調(diào)查里有 19都是這樣。為什么會這樣?原因很復雜,但是有一個比較簡單的解釋就是,當樣本數(shù)量達到了某個值之后,我們從新個體身上得到的信息會越來越少,就如同經(jīng)濟學中的邊際效應遞減一樣。


上一章目錄下一章

Copyright ? 讀書網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號