《STEAM》互聯網上的失效連結

張瑞雄 2022/01/26 12:04 點閱 1833 次

不管大學教授在做研究或新聞記者調查事件,一定都會在互聯網上搜尋相關的資料,但很多時候,你所搜尋的超連結(hyperlink)常出現資料已經找不到了的狀況(404 not found)。

失效的超連結

有一個研究分析,自1996年紐約時報電子版成立以來,在文章中的大約200萬個連到外部參考資料的超連結,結果發現25%的深層超連結已經找不到資料(深層超連結是指向特定內容的超連結,例如anntw.com/articles/20220119-yk1Y,而不僅僅是 anntw.com),而且文章愈舊,失效的超連結就愈多。

如果回到1998年,紐時文章中72%的超連結已經失效,總體而言,紐約時報中超過一半的包含深度超連結的文章中,至少有一個是失效的超連結。

歷史保存方式

在互聯網出現之前,保存知識和歷史的主要方法是把它寫下來。先是在石頭上,然後是羊皮或布,然後是紙,然後是磁帶、軟碟或硬碟,並將資料儲存在公或私的建物中(如圖書館),旨在防止其腐爛、盜竊、戰爭和自然災害。

這種方法有助於保存一些資料數千年。理想情況下,多個建物中會儲存多個相同的副本,因此一個建物的毀壞不會使其中的知識和歷史消失。在某些情況下,文件會被秘密更改,但可以將其與其他地方的副本進行比較,以檢測真偽。

互聯網和全球資訊網(WWW: World Wide Web)的發明似乎極大地改善了知識和歷史的保護和存取的工作,WWW的超連結設計讓人們可以彈指之間調查到想要的資料,知識和歷史散布在各地的網路伺服器裡面,彼此超連結互聯。

沒有中央歸檔系統

聰明的人想到了設計了網路爬蟲來自動跟踪和記錄可以找到的每一個超連結,然後建立一個索引目錄,這就是今天的搜索引擎,讓你可以在超過數兆個可能的浩瀚網頁中,找到相關的資料。正如谷歌所說的,「網路世界就像一個不斷成長的圖書館,其中收藏著數十億本書籍,卻沒有中央歸檔系統。」

假如你要知道谷歌是否真的說過上面那句話,我會請你去以下的超連結看,https://www.google.com/search/howsearchworks/crawling-indexing/。今天假設谷歌更改該頁面上的內容,或者在我寫這篇文章和你閱讀這篇文章之間的任何時間重新組織它的網站,或完全消除這個超連結,你可能會懷疑我在亂說。

知識和歷史的遺失

事實證明,超連結失效和網頁內容改變是網路目前的嚴重問題,這對於一個收藏著「數十億本書籍,卻沒有中央歸檔系統」的圖書館來說,存在驚人的風險,那就是知識和歷史的遺失。

要解決這個問題非常困難,也沒有明顯的答案,或許搜尋引擎對每一個連結可以下載保留一個備份,但搜尋引擎公司都是私人的,沒有義務且沒有那麼大的資源。

或許每個國家有一個自己的網路備份(Internet Archives),但這又有隱私權、言論自由、資料洩密等等問題。

對個人來說,唯一的方法就是當你認為那份資料很重要時,趕快印下來保存,因為明天它可能就消失或更改了。