【台灣醒報記者鄭國強台北報導】再怎先進的資料採礦分析技術,遇上了ptt鄉民的發言都要轉彎。一般資料分析技術在處理數字、文字對話資料等都遊刃有餘,然而每日從網上搜集60億字的意藍資訊董事總經理楊立偉表示,唯獨遇上ptt鄉民無厘頭的發言,超出一般資料分析能力,只能動用人工智慧與機械學習來找出規則。
發言無規則 分析師崩潰
一位陳姓資訊工程師說,「在PTT上遇到『XD』這符號怎麼分析?有些還出現『XXXD』。」他再以在政治討論鄉民常用「崩潰」來形容藍營支持者,有時候用「崩」,有時候用「潰」,然後藍營支持者也開始用「崩潰」反唇相譏,他表示,還常見非正常語法,例如常見的「是不?」。還有特定符號如一講「香蕉」則暗諷邱毅的誤認太陽花為香蕉事件。
一般資料分析技術處理數字資料如所得、電話撥出次數等都遊刃有餘,處理客服中心客戶對話內容採用文字採礦技術,常見的有字頻分析如Google的「文字雲」,原理是被重複提出的詞出現越多,代表越重要。然而楊立偉指出,國內最熱門的鄉民討論網站批踢踢,上面的發言時常毫無文法可言,又加上反串文、火星文,「字頻分析」已無用武之地。
舊分析無用 靠人工智慧
楊立偉也說,批踢踢鄉民發言的確是資料分析師的挑戰,分析團隊加入中文系專家、社會學家,判讀雖然準確,但面對每天對話資料爆炸性成長,人工判讀仍嫌慢,只好求助於人工智慧的機器學習。關於人工智慧運用,他簡單解釋說,把少量原始資料餵給人工智慧軟體,它歸納出規則後,分析員再去校正,「讓軟體知道它哪一項是對的,哪個是錯的,不斷重複這個過程,軟體就愈來愈準。」
即使在導入人工智慧學習,從批踢踢所歸納出的法則最多也只能解讀8成的語句,楊立偉強調,仍有太多批踢踢的語法還是無法機器解讀。但文字資料愈來愈受到企業、分析師的重視,它仍是解讀市場趨勢的最佳媒介。