別把資料庫當大數據(張瑞雄)

張瑞雄 / 國立台北商業大學校長 2015/11/11 20:01 點閱 1789 次
過去累積的颱風資料愈多,掌握的天氣水文資料愈多,颱風的模型愈正確。(photo by Wikipedia)
過去累積的颱風資料愈多,掌握的天氣水文資料愈多,颱風的模型愈正確。(photo by Wikipedia)

近來大數據(Big Data)成為顯學,各大學搶開大數據學程,媒體也或現象動不動就說是由大數據分析得到的結果,例如最近說在校成績不好的學生畢業後反而捐款多等等,其實這些只能說是資料庫搜尋,不是大數據分析,社會上不要輕易被大數據所唬了。

顧名思義,所謂的大數據就一定要大,幾千萬幾百億都不算大,現在要到十的十五次方(一千兆)才叫做大。據估計過去兩年人類所產生的資料佔有歷史以來所有資料的90%,到2020,人類累積的資料量將高達4乘上十的22次方,這才是大數據資料,從幾百萬筆資料中所得到的現象都不算是大數據分析。

【數據分析颱風路徑】
除了大之外,大數據通常是從你不知道要如何分析開始,連你要找甚麼答案也可能都不清楚,要知道那些學生過去捐款超過100萬,只要做個資料庫的搜尋就可知道答案。但要知道資料裡面的那些學生未來可能捐款超過100萬,那就很困難。資料的搜尋能夠找到已經發生的事情,但資料的分析才可以找出未來可能發生的事情,讓人們能夠預先準備或防範。

大數據的分析其實已經存在很久,例如颱風的預測就是。從一大堆天氣和氣象的資訊中來預測颱風的強度、路徑和速度,如果過去累積的颱風資料愈多,掌握的天氣水文資料愈多,颱風的模型愈正確,電腦算的速度愈快,路徑的預測就愈精準,這就是大數據。

【資料要大較正確?】
由於電腦的儲存容量和計算能力都愈來愈強,以前要一個月才能算出來的東西,現在可能幾分鐘就算出來了,再加上網路的方便讓計算可以分散到世界各地,也讓資料可以儲存到世界各地,所以才讓大數據的分析變得可行。大數據就是從過去資料來研判未來的趨勢,所以過去的資料要大,未來的研判才有意義也比較正確。

但我們研判大數據分析的結果時要特別小心,例如數據是否正確,所採用的分析方法是否正確等等,否則就會像谷歌幾年前推出的感冒趨勢預測系統一樣,本來說是要比疾病管制中心早幾個禮拜知道是否有感冒流行,最後卻發覺預測錯誤很多,主因就是系統是依靠了使用者輸入的搜尋字串,但這些字串可能千奇百怪,有的和感冒有關,程式卻辨認不出來,有的和感冒無關,程式卻又認為有關。

最後就是要問大數據的問題要正確,寧可問一個對的問題而得到近似的答案,也勝過問一個錯的問題而得到完全的答案。