正文

《大數(shù)據(jù)時代》小數(shù)據(jù)時代的隨機(jī)采樣,最少的數(shù)據(jù)獲得最多的信息(3)

大數(shù)據(jù)時代 作者:(英)維克托·邁爾-舍恩伯格


認(rèn)為樣本選擇的隨機(jī)性比樣本數(shù)量更重要,這種觀點(diǎn)是非常有見地的。這種觀點(diǎn)為我們開辟了一條收集信息的新道路。通過收集隨機(jī)樣本,我們可以用較少的花費(fèi)做出高精準(zhǔn)度的推斷。因此,政府每年都可以用隨機(jī)采樣的方法進(jìn)行小規(guī)模的人口普查,而不是只能每十年進(jìn)行一次。事實(shí)上,政府也這樣做了。例如,除了十年一次的人口大普查,美國人口普查局每年都會用隨機(jī)采樣的方法對經(jīng)濟(jì)和人口進(jìn)行 200多次小規(guī)模的調(diào)查。當(dāng)收集和分析數(shù)據(jù)都不容易時,隨機(jī)采樣就成為應(yīng)對信息過量的辦法。

很快,隨機(jī)采樣就不僅應(yīng)用于公共部門和人口普查了。在商業(yè)領(lǐng)域,隨機(jī)采樣被用來監(jiān)管商品質(zhì)量。這使得監(jiān)管商品質(zhì)量和提升商品品質(zhì)變得更容易,花費(fèi)也更少。以前,全面的質(zhì)量監(jiān)管要求對生產(chǎn)出來的每個產(chǎn)品進(jìn)行檢查,而現(xiàn)在只需從一批商品中隨機(jī)抽取部分樣品進(jìn)行檢查就可以了。本質(zhì)上來說,隨機(jī)采樣讓大數(shù)據(jù)問題變得更加切實(shí)可行。同理,它將客戶調(diào)查引進(jìn)了零售行業(yè),將焦點(diǎn)討論引進(jìn)了政治界,也將許多人文問題變成了社會科學(xué)問題。

隨機(jī)采樣取得了巨大的成功,成為現(xiàn)代社會、現(xiàn)代測量領(lǐng)域的主心骨。但這只是一條捷徑,是在不可收集和分析全部數(shù)據(jù)的情況下的選擇,它本身存在許多固有的缺陷。它的成功依賴于采樣的絕對隨機(jī)性,但是實(shí)現(xiàn)采樣的隨機(jī)性非常困難。一旦采樣過程中存在任何偏見,分析結(jié)果就會相去甚遠(yuǎn)。

最近,以固定電話用戶為基礎(chǔ)進(jìn)行投票民調(diào)就面臨了這樣的問題,采樣缺乏隨機(jī)性,因?yàn)闆]有考慮到只使用移動電話的用戶——這些用戶一般更年輕和更熱愛自由。沒有考慮到這些用戶,自然就得不到正確的預(yù)測。 2008年在奧巴馬與麥凱恩之間進(jìn)行的美國總統(tǒng)大選中,蓋洛普咨詢公司、皮尤研究中心(Pew)、美國廣播公司和華盛頓郵報這些主要的民調(diào)組織都發(fā)現(xiàn),如果他們不把移動用戶考慮進(jìn)來,民意測試結(jié)果就會出現(xiàn)三個點(diǎn)的偏差,而一旦考慮進(jìn)來,偏差就只有一個點(diǎn)。鑒于這次大選的票數(shù)差距極其微弱,這已經(jīng)是非常大的偏差了。

更糟糕的是,隨機(jī)采樣不適合考察子類別的情況。因?yàn)橐坏├^續(xù)細(xì)分,隨機(jī)采樣結(jié)果的錯誤率會大大增加。這很容易理解。倘若你有一份隨機(jī)采樣的調(diào)查結(jié)果,是關(guān)于 1 000個人在下一次競選中的投票意向。如果采樣時足夠隨機(jī),這份調(diào)查的結(jié)果就有可能在 3%的誤差范圍內(nèi)顯示全民的意向。但是如果這個 3%左右的誤差本來就是不確定的,卻又把這個調(diào)查結(jié)果根據(jù)性別、地域和收入進(jìn)行細(xì)分,結(jié)果是不是越來越不準(zhǔn)確呢?用這些細(xì)分過后的結(jié)果來表現(xiàn)全民的意愿,是否合適呢?

你設(shè)想一下,一個對 1 000個人進(jìn)行的調(diào)查,如果要細(xì)分到“東北部的富裕女性”,調(diào)查的人數(shù)就遠(yuǎn)遠(yuǎn)少于 1 000人了。即使是完全隨機(jī)的調(diào)查,倘若只用了幾十個人來預(yù)測整個東北部富裕女性選民的意愿,還是不可能得到精確結(jié)果?。《?,一旦采樣過程中存在任何偏見,在細(xì)分領(lǐng)域所做的預(yù)測就會大錯特錯。

 


上一章目錄下一章

Copyright ? 讀書網(wǎng) www.dappsexplained.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號