大家若要在網路上找消息,幾乎一定要透過搜尋引擎,而大家最常用的搜尋引擎應該就是谷歌(Google),但22歲(谷歌創辦於1998年)以下的網路新世代會不會好奇在沒有谷歌之前,大家是怎麼樣在網路上找消息?有一個英文簡寫就叫BG (Before Google),代表網路在谷歌之前的時代。
TF-IDF搜尋引擎
早期互聯網資訊共享的最重要方式之一,是圖書館或學者或業餘專家主題式的分享,大家都知道這些分享網站的地址,不需要甚麼搜尋工具。但隨著網路的普遍和分享技術的簡單化,這種分享知識或消息的網站呈現天文數字的成長,造成網路上找資訊的不方便,搜尋引擎因此應運而生,它們基於兩種不同的理念:TF-IDF和人工編輯。
TF-IDF代表Term Frequency Inverse Document Frequency,這意味著搜尋引擎接受了您的查詢(例如love boat)並尋找包含該詞的文檔。但是它還考慮了該字詞在整個資資料庫中的普遍程度,以避免在非常常見的字詞上出現過度匹配的情況。因此在搜尋love boat時,TF-IDF引擎可能更喜歡提及boat的檔案,而不是那些包含love的檔案,因為love可能是比boat更常見的字詞。
易受特定操弄
TF-IDF很容易受到特定類型的操弄,例如有人要賣船,若你要查詢love boat,他只需要發布一個重複包含love boat的網頁,網路上沒有比他的網頁更符合你的查詢了,因此他的網頁每次都會排名第一。這就是導致谷歌創辦人Larry Page和Sergey Brin想到用Page Rank的方式來排名網頁。
其想法是像一般的垃圾網頁很少被其他網頁參考連結,而有用的網頁會有很多入參考連結。谷歌基本上將TF-IDF與Page Rank結合起來,以啟動其最初的搜尋引擎。但大家知道谷歌的方法之後就會虛造很多虛假的網頁,然後彼此互相連結,造成網頁被參考連結很多的假象,當然谷歌也改進它的演算法來對抗各種提高排名的惡搞。
人工編輯自動歸類
相比之下,雅虎(Yahoo)最初是完全由人工主導編輯,它比較像是電話號碼簿而不是搜尋引擎。這樣做的好處是它出來的結果幾乎是階層或結構化的,相同類別的資訊會被雅虎放在一塊,例如你搜尋汽車就會出汽車製造商、汽車銷售商、汽車零件商等等。再往下搜尋汽車製造商就會出現福特、馬自達、豐田等等,不會有一大堆不相關的網頁。
雅虎在網路的最初幾年中確實運作得很好,但是隨著網路的普及和網頁的指數式增加,人工目錄的方法在1997年左右就崩潰了。不過雖然很難想像雅虎式的方法會回來,但看到現在網路上詐騙的網頁一大堆,人工編輯的可靠查詢是蠻令人懷念的。
當然網路浩瀚,要靠幾個簡單的字詞就可以馬上找到你要的資訊並不容易,憑良心講,谷歌已經做得不錯。接下來可能是更高深的腦腦(人腦和電腦)相通的技術,靠你的想法和你的腦波來操縱電腦和網頁的搜尋,人機合一,威力無窮。