注意,隨機(jī)訪問者模型天生能同時和超鏈接把戲及權(quán)重把戲相配合。換句話說,每個網(wǎng)頁鏈入鏈接的質(zhì)量和數(shù)量都會被納入考慮范圍。網(wǎng)頁B就展示了這些:網(wǎng)頁B的訪問者權(quán)重值相對較高(10%),得益于三個鏈入鏈接所在的網(wǎng)頁擁有適中的訪問者權(quán)重值,從4%到7%不等。
隨機(jī)訪問者把戲的美妙之處在于,和權(quán)重把戲不同,不管超鏈接有沒有形成循環(huán),隨機(jī)訪問者把戲都能完美地運作?;氐皆缜暗某吹袄樱覀兡茌p易地運行一次隨機(jī)訪問者模擬。在數(shù)百萬次訪問之后,我的模擬產(chǎn)生了如上圖所示的訪問者權(quán)重值。請留意,和之前使用權(quán)重把戲進(jìn)行的計算一樣,伯特的網(wǎng)頁訪問者權(quán)重值要比歐尼的網(wǎng)頁高很多(28%VS 1%)——盡管這兩個網(wǎng)頁都只有一個鏈入鏈接。因此,伯特的網(wǎng)頁在網(wǎng)絡(luò)搜索查詢“scrambled eggs”(炒蛋)中排名更高。
現(xiàn)在讓我們再轉(zhuǎn)向前文中更困難的例子:對于最初的權(quán)重把戲而言,由于超鏈接循環(huán)的存在,第39頁的圖產(chǎn)生了一個不可解的問題。和前面一樣,運行一次隨機(jī)訪問者的計算機(jī)模擬很容易,于是產(chǎn)生了如上圖所示的訪問者權(quán)重值。由這一模擬判定的訪問者權(quán)重值給出了網(wǎng)頁的最終排名,這些排名會被搜索引擎在返回結(jié)果時使用:網(wǎng)頁A排名最高,之后是B和E,C和D的排名同列最后一名。
實際中的PageRank
谷歌的兩位聯(lián)合創(chuàng)始人于1998年在他們著名的會議論文《解析大規(guī)模超文本網(wǎng)絡(luò)搜索引擎》中描述了隨機(jī)訪問者把戲。通過和其他許多技術(shù)結(jié)合,這一把戲的變體仍被主流搜索引擎所使用。不過,由于眾多復(fù)雜因素,應(yīng)用在現(xiàn)代搜索引擎中的實際技術(shù)和本章描述的隨機(jī)訪問者把戲略有不同。
其中一個復(fù)雜因素直擊PageRank的核心:有時候,假設(shè)超鏈接傳輸?shù)暮戏?quán)威性有爭議。我們先前已了解到,盡管超鏈接能代表批評而非推薦,但這在現(xiàn)實中并不是個很大的問題。另一個更加嚴(yán)重的問題是,人們可以濫用超鏈接把戲,人為地提高自己網(wǎng)頁的排名。假設(shè)你運營著一個名為BooksBooksBooks.com的網(wǎng)站來售書(驚訝吧)。通過使用自動化技術(shù),創(chuàng)建一大堆不同的網(wǎng)頁——比如一萬個——并讓這些網(wǎng)頁都鏈向BooksBooksBooks.com,做到這一切相對很容易。因此,如果搜索引擎和本章描述的一樣來計算PageRank權(quán)重,BooksBooksBooks.com的權(quán)重值就能比其他書店高數(shù)千倍,進(jìn)而有更高的排名和更多的銷售額,而這都不是BooksBooksBooks.com應(yīng)得的。