《STEAM》搜尋引擎從過去到未來

大家若要在網路上找消息，幾乎一定要透過搜尋引擎，而大家最常用的搜尋引擎應該就是谷歌(Google)，但22歲(谷歌創辦於1998年)以下的網路新世代會不會好奇在沒有谷歌之前，大家是怎麼樣在網路上找消息？有一個英文簡寫就叫BG (Before Google)，代表網路在谷歌之前的時代。

TF-IDF搜尋引擎

早期互聯網資訊共享的最重要方式之一，是圖書館或學者或業餘專家主題式的分享，大家都知道這些分享網站的地址，不需要甚麼搜尋工具。但隨著網路的普遍和分享技術的簡單化，這種分享知識或消息的網站呈現天文數字的成長，造成網路上找資訊的不方便，搜尋引擎因此應運而生，它們基於兩種不同的理念：TF-IDF和人工編輯。

TF-IDF代表Term Frequency Inverse Document Frequency，這意味著搜尋引擎接受了您的查詢（例如love boat）並尋找包含該詞的文檔。但是它還考慮了該字詞在整個資資料庫中的普遍程度，以避免在非常常見的字詞上出現過度匹配的情況。因此在搜尋love boat時，TF-IDF引擎可能更喜歡提及boat的檔案，而不是那些包含love的檔案，因為love可能是比boat更常見的字詞。

易受特定操弄

TF-IDF很容易受到特定類型的操弄，例如有人要賣船，若你要查詢love boat，他只需要發布一個重複包含love boat的網頁，網路上沒有比他的網頁更符合你的查詢了，因此他的網頁每次都會排名第一。這就是導致谷歌創辦人Larry Page和Sergey Brin想到用Page Rank的方式來排名網頁。

其想法是像一般的垃圾網頁很少被其他網頁參考連結，而有用的網頁會有很多入參考連結。谷歌基本上將TF-IDF與Page Rank結合起來，以啟動其最初的搜尋引擎。但大家知道谷歌的方法之後就會虛造很多虛假的網頁，然後彼此互相連結，造成網頁被參考連結很多的假象，當然谷歌也改進它的演算法來對抗各種提高排名的惡搞。

人工編輯自動歸類

相比之下，雅虎(Yahoo)最初是完全由人工主導編輯，它比較像是電話號碼簿而不是搜尋引擎。這樣做的好處是它出來的結果幾乎是階層或結構化的，相同類別的資訊會被雅虎放在一塊，例如你搜尋汽車就會出汽車製造商、汽車銷售商、汽車零件商等等。再往下搜尋汽車製造商就會出現福特、馬自達、豐田等等，不會有一大堆不相關的網頁。

雅虎在網路的最初幾年中確實運作得很好，但是隨著網路的普及和網頁的指數式增加，人工目錄的方法在1997年左右就崩潰了。不過雖然很難想像雅虎式的方法會回來，但看到現在網路上詐騙的網頁一大堆，人工編輯的可靠查詢是蠻令人懷念的。

當然網路浩瀚，要靠幾個簡單的字詞就可以馬上找到你要的資訊並不容易，憑良心講，谷歌已經做得不錯。接下來可能是更高深的腦腦(人腦和電腦)相通的技術，靠你的想法和你的腦波來操縱電腦和網頁的搜尋，人機合一，威力無窮。

台灣醒報

TF-IDF搜尋引擎

易受特定操弄

人工編輯自動歸類

最新熱門

熱門新聞

熱門副刊文章