《暗數據:被看到、被聽到、被測量到的,往往不是「真凶」》

醒報編輯 2021/06/07 07:44 點閱 19324 次

身處大數據時代,不難以為我們擁有做出好決定的一切數據。但我們擁有的數據其實從未完整,甚至只取得冰山一角。

就如同宇宙大部分由暗物質組成,雖然存在卻不被看見,資訊世界也充滿了暗數據,為我們所無視,非常危險。在這本《暗數據》中,數據專家大衛.漢德帶領我們踏上一趟啟發人心的精采旅程,走進我們看不見的數據的世界。

本書探討許多對於暗數據視而不見的情況,討論這些情況如何讓我們做出錯誤、危險,甚至災難性的結論與行動。作者檢視了現實生活中的例子,從挑戰者號太空梭爆炸到複雜的金融詐騙,並分享一套務實的暗數據分類法,說明這些暗數據是如何產生,以便我們學會辨別與掌控暗數據。

讓我先從一個笑話講起。前幾天我在路上遇見一位老人,他走在馬路中央,每隔五十步左右就在路上撒一小堆粉末。我問他在做什麼,他說:「我在撒大象粉。大象受不了這種粉末,所以都不會靠近。」我說:「但這裡沒有大象。」他回答:「沒錯!你瞧這粉末多有效!」笑話講完了,來點正經的。

惡疾麻疹數據驚人

全球每年有將近10萬人死於麻疹,每500名感染者就有1人死於併發症,其餘則是終生耳聾或大腦受損。幸好該傳染病在美國極為罕見,1999年只有99起通報病例。

然而,2019年1月華盛頓州麻疹爆發,導致該州宣布進入緊急狀態,其餘各州的通報病例也顯著增加。美國以外的國家也有類似情形。2019年2月中旬,烏克蘭的麻疹爆發病例已經超過2萬1千例。歐洲2017年有25863例麻疹,2018年卻暴增高達8萬2千多例。羅馬尼亞從2016年元旦至2017年3月底,則有4千多起麻疹通報病例,造成18人死亡。

麻疹是可怕的惡疾,由於感染之後要過幾週才會有明顯症狀,很容易悄悄蔓延而不被察覺,根本還不曉得它在傳播,就已經被感染了。

莫名挨針令人遲疑

然而,麻疹是可以預防的,只要接種疫苗就能免於被傳染的風險。而美國施行的全國免疫計畫也確實非常成功,應該說太成功了,使得施行這類計畫的國家的大多數家長,一輩子都沒見過或經歷過這種可預防疾病的可怕。

因此,當政府建議家長帶孩子去打疫苗,好預防這種他們從來沒見過或聽過親朋好友左鄰右舍得過、疾病預防管制中心還曾宣布絕跡的疾病,家長自然會對這樣的建議半信半疑。

為了不存在的東西挨一針?感覺就跟撒大象粉一樣。只是麻疹和大象不同,威脅並未消失,始終千真萬確。只不過家長遺漏了做決定所需的資訊與數據,所以才看不到風險。凡是遺漏的資訊與數據,我一概以「暗數據」(dark data)稱之。暗數據隱而不顯,單憑這點就可能導致誤解、錯誤結論及壞決定。簡單說,就是無知會讓人出錯。

看不見的暗數據

暗數據一詞發想自物理學的暗物質(dark matter)。宇宙有27%由這種神祕物質構成。由於它不跟光和電磁輻射作用,肉眼不可見,進而使得天文學家長年不知其存在。直到觀察星系旋轉,發現距離星系中心較遠的星體移動速度並不比距離較近的星體慢,違反我們對重力的理解,天文學家才察覺不對。

於是,有人假設星系的總質量比望遠鏡觀察到的星體和其他物體的質量總和還大,這樣就能解釋星系旋轉的反常現象。由於我們看不見那多出來的質量,所以稱之為暗物質,而且這種物質可能分量(我差點就說「質量」)驚人:據估計,我們所在的銀河系擁有的暗物質是一般物質的十倍左右。

暗數據與暗物質很類似──我們見不到那些數據;那些數據沒有紀錄,卻會大大影響我們的推論、決定與行動。本書稍後將會舉例說明,除非我們察覺四周潛藏著未知的事物,否則後果可能不堪設想,甚至致命。

利用數據做決定

本書嘗試探討暗數據如何出現,以及為何出現。書中將檢視各種暗數據;瞭解這些數據的成因;說明哪些步驟可以避免暗數據出現,防範未然;介紹察覺自己被暗數據蒙蔽時該如何處置;最後指出只要夠聰明,有時還能利用暗數據,從中得益。

雖然聽來奇怪又矛盾,但我們確實能夠利用無知和暗數據,思考做出更好的決定與行動。說得更具體一點,就是讓我們生活得更健康、賺更多錢,並明智運用未知來降低風險。這不代表我們應該對別人隱瞞資訊(雖然本書之後幾章會提到,刻意隱瞞的數據是常見的一種暗數據),實際作法比這複雜許多,而且所有人都會受益。

資料庫病例結果不明

在醫學領域,創傷是一種重傷害,可能留下嚴重的長期後患,或可導致過早死亡與殘障,是「壽命減損」的最重大事由之一,也是四十歲以下人口最常見的死因。

創傷審計與研究網路(TARN)擁有歐洲最大的醫學創傷資料庫,蒐集的創傷紀錄來自全歐兩百多所醫院,除了英格蘭和威爾斯93%以上的醫院,還包括愛爾蘭、荷蘭和瑞士的各級醫院。不論研究創傷病例的預後或治療的有效性,這個網路顯然都是非常豐富的寶藏。

英國萊徹斯特大學的艾夫吉尼.莫克斯(Evgeny Mirkes)博士的研究團隊,檢視了創傷審計與研究網路的部分數據。他們研究16萬5559個創傷病例,發現其中有1萬9289個病例結果不明。

第一型暗數據

在創傷研究中,所謂「結果」是指病患受創30天以後是否存活。因此,11%的創傷病人30天後是否存活,我們不得而知。這是很常見的一型暗數據──DD-T1:我們知道漏掉的數據。我們知道這些病人一定有結果,只是不曉得結果是什麼。

你可能會想,這有什麼問題?只要分析我們知道結果的那14萬6270位創傷病人,從中得出理解與預後就好。畢竟14萬6270是個大數字,至少醫學上如此,所以我們當然可以很有把握地說,從這些數據得出的結論是正確的。

可是,真的是這樣嗎?說不定少掉的那1萬9289人的數據,跟其餘病人很不一樣。畢竟他們顯然有一個不同點,就是結果不明,因此設想他們可能還有其他方面和其餘病人不同,也就不無道理。

忽略數據很可怕

相較於納入全體創傷病人,只分析結果已知的14萬6270位病人可能會造成誤導,據此採取的作為也可能出錯,可能導致錯誤的預後、不正確的處方、不當的治療方案,對病人造成不幸甚至致命的後果。

讓我們暫時撇開現實,舉個極端的例子吧。假設結果已知的那14萬6270位病人,未受治療都存活下來並康復了,而結果不明的那1萬9289名病人都在就診後的兩天內死亡。

這時要是忽略結果不明的病例,我們就會信誓旦旦地下結論說,不用擔心,所有創傷病人都會康復,面對新的創傷病人也都覺得他們自己會好,因而不進行任何治療,結果卻驚慌又困惑地發現怎麼會有11%以上的病人性命垂危。

民調也有類似情況

民調也有類似的狀況,「未回應」往往會造成問題。研究者通常會有一份名單,上頭是他們希望回答問題的人,但通常不是所有人都會作答。

要是作答和不作答的人在某些方面有所不同,研究者就得擔心統計數據能否切實反映母群體的狀況。畢竟如果某家雜誌進行訂戶調查,只問訂戶一個問題:你有回覆本刊的調查嗎?我們也不能因為回覆調查的人答「有」的比例百分之百,從而推論所有訂戶都有回覆。

前面這些例子都是第一型暗數據。即使不是所有TARN病人的量測值都有記錄下來,我們確信他們都有數據。我們也知道所有接受民調的人心中都有答案,只是有些人沒有作答。我們通常知道數值一定在,只是不曉得是多少。

(興韻/輯)

《暗數據:被看到、被聽到、被測量到的,往往不是「真凶」》
作者: 大衛‧漢德
出版社:大塊文化