今天去新北市政府參加「大數據論壇」,我蠻喜歡去新北市府的,因為房子、廣場都很大,有一種逛大衙門的感覺。
其實我之前都沒有關心大數據的議題,因為我一直覺得這就是把統計玩到極致而已,從古時候擅長統計的人就很吃香了,因為這門功夫難學難精,做任何研究都得靠統計,簡而言之,就是我覺得除了資料庫變大外,也沒啥特別的。
但仔細聽了這位各界公認的大數據專家講解後,我發現大數據應用有兩個重點,相當挑戰我們過去所受的教育。
首先是「資料數量遠比品質更重要」,資料數量很重要這點無庸置疑,例如新藥的臨床試驗,如果可以測試1萬個病人,就絕對不會只做1千個。做統計有時候會剔除極少數很誇張的「破表值」或極低值,這不是偷吃步,反而是更能呈現較「正確」的數據,但在大數據的「海量」下,一切以擴大資料規模為主,就算有一些充數的濫竽也會被「稀釋」掉。
另外一個概念,也是教育部蔣部長跟新北市朱市長念茲在茲的,就是怎麼能夠講「相關」而棄「因果」呢?以今天正健哥做的那則「手機電磁波殺精」為例,講究的就是相關性,但這類研究無法作出因果,例如我用電磁波狂轟一個人,他未必精子品質會受影響,對某些「學院派」而言,沒有實質的因果關係就算不上是好研究,但這樣的概念卻可能逐漸面臨崩解。
總之不管喜不喜歡,歡迎來到這個大數據的時代。
6月11日工作成果
1. 教長、市長挑戰麥氏 大數據優缺點
2. 大數據出現 改變對世界的認知
3. 蛋白質研究突破 找到癌症新標記