超鏈接把戲
你很有可能已經(jīng)知道了超鏈接是什么:超鏈接是網(wǎng)頁上的一個短語,當你點擊它時,你將被帶到另一個網(wǎng)頁。絕大多數(shù)網(wǎng)絡(luò)瀏覽器用藍色底線顯示超鏈接,以便能輕易識別。
令人意外的是,超鏈接也是老想法。1945年——大約在同時開始開發(fā)電子計算機——美國工程師范內(nèi)瓦·布什(Vannevar Bush)發(fā)表了一篇極具前瞻性的論文《誠若所思》。在這篇涉獵廣泛的論文中,布什描述了大量可能的新技術(shù),包括一臺被稱作麥麥克斯(memex)的機器。麥麥克斯可以存儲文件并自動進行索引,但其功能遠不止這些。麥麥克斯允許“關(guān)聯(lián)索引……任何被選中的東西都能立即自動選擇另一個東西”——換句話說,一種早期的超鏈接。
超鏈接自1945年就已出現(xiàn)。它們是搜索引擎用來進行排名最重要的工具之一,而且是谷歌PageRank技術(shù)的基礎(chǔ)。接下來,我們將開始以最大的熱情探索PageRank技術(shù)。
理解PageRank的第一步是一個名為超鏈接把戲的簡單想法。用一個例子就能非常容易地解釋這個把戲。假設(shè)你對學(xué)習(xí)如何制作炒蛋感興趣,并且用網(wǎng)絡(luò)搜索了這一主題。如今,任何一次真正搜索炒蛋的網(wǎng)絡(luò)搜索都會出現(xiàn)數(shù)百萬個命中,但為方便起見,讓我們想象只有兩個網(wǎng)頁出現(xiàn):其中一個是“歐尼的炒蛋菜譜”,而另一個則是“伯特的炒蛋菜譜”。這兩個網(wǎng)頁都出現(xiàn)在上圖中,與之一道的是擁有這些菜譜超鏈接的網(wǎng)頁。還是為了方便起見,讓我們想象這四個包含超鏈接的網(wǎng)頁是整個互聯(lián)網(wǎng)上僅有的鏈接到兩個菜譜網(wǎng)頁之一的網(wǎng)頁。圖中底部畫線的文字就代表超鏈接,而箭頭則表示鏈接的指向。
問題是,這兩個命中哪個排名應(yīng)該更高?伯特還是歐尼?人們在閱讀鏈向這兩份菜譜的網(wǎng)頁并作出評價上不會有太大的問題??雌饋磉@兩份菜譜都很合理,但人們對伯特菜譜的反響要更為熱烈一些。因此,在沒有給出其他信息的情況下,伯特的菜譜比歐尼的菜譜排名更高可能會更合理。
不幸的是,計算機并不擅長理解網(wǎng)頁的真實意思,因此搜索引擎檢查這四個鏈向命中的網(wǎng)頁,并對每份菜譜獲推薦的強烈程度進行評估也不太可能。另外,計算機在計算方面非常優(yōu)秀。一種簡單方法就是只計算鏈向每份菜譜的網(wǎng)頁數(shù)——在這個例子中,一個網(wǎng)頁鏈向歐尼的菜譜,三個網(wǎng)頁鏈向伯特的菜譜——并根據(jù)這些菜譜的鏈入鏈接數(shù)對菜譜排名。當然,這種方法遠不如讓人閱讀所有頁面并手動排名精確,但無疑是一種有用的方法。如果你沒有其他信息,一個網(wǎng)頁的鏈入鏈接數(shù)可以成為該網(wǎng)頁可能會多有用或多有“權(quán)威性”的指標。在這個例子中,伯特的菜譜得分為3,歐尼的菜譜得分為1,因此在搜索引擎向用戶展示的結(jié)果中,伯特的網(wǎng)頁排名比歐尼的高。
你可能已經(jīng)發(fā)現(xiàn)了一些在排名上使用這種“超鏈接把戲”的問題。一個很明顯的問題就是,有時候鏈接被用來顯示差網(wǎng)頁,而非好網(wǎng)頁。比如,假設(shè)有個鏈接歐尼菜譜的網(wǎng)頁上寫著:“我試了下歐尼的菜譜,很糟糕?!毕襁@樣批評而非推薦一個網(wǎng)頁的鏈接,的確會導(dǎo)致超鏈接把戲?qū)⒕W(wǎng)頁的排名拔高。不過,在現(xiàn)實中,超鏈接更多是用于推薦而非批評。因此,盡管有這個明顯的缺陷,超鏈接把戲仍然很有用。