〈STEAM〉打擊假帳號 靠AI辨識還不夠

張瑞雄 2020/03/10 17:41 點閱 2384 次

對臉書用戶來說,每天都會收到一些加入好友的邀請。很多個人照片看起來美美的,但不要以為你很受歡迎,因為大部分是假的臉書帳號,一旦加他/她為好友,你的個資和你臉書朋友的個資都有可能外洩,所以臉書上加好友要特別小心,尤其是不認識的人。

2019年臉書每季平均消滅近20億個假帳號,欺詐者使用這些假帳號傳播垃圾郵件,網絡釣魚連結或惡意軟體。假帳號是一項有利可圖的業務,對於它所誘捕的任何無辜用戶而言,一旦上當可能會損失慘重。

AI偵測刪除假帳號

臉書現在採用AI來辨識和刪除假帳號。假帳號可分為兩類,一個是「用戶分類錯誤的帳號」,即企業或政治團體或政客或為寵物所設的帳號,這些帳號通常廣告或連結很多,很容易被AI歸類為可疑的帳號,處理這些帳號相對容易,只需將他們轉為粉絲網頁即可。

另一類稱之為違反帳號(Violating Accounts)則更為嚴重。這些是涉及欺詐和垃圾郵件或違反平台服務條款的個人帳號,需要盡快刪除。然而AI偵測的困難點就是希望不要撒網太密太寬,以致一些真實帳號也被無辜地刪掉。

深度機器學習系統

AI使用手工編碼的規則和機器學習來阻止偽造帳號的建立或使用,換句話說,在假帳號開始造成傷害前就阻止它。如果假帳號逃過檢查而開始使用,這時假帳號的偵測就變得更加棘手。臉書現在發展一套新的深度機器學習系統,稱之為Deep Entity Classification (DEC),希望能夠更有效地發現使用中的假帳號。

DEC學會通過網路和朋友的連接模式來區分虛假用戶和真實用戶,帳號的深層特徵包括用戶朋友的平均年齡或性別分佈等等。DEC使用超過20,000種深層特徵來刻畫每個帳號的使用狀況,提供每個帳號使用行為的快照(snapshot),讓這些假帳號難以透過更改使用策略來欺騙DEC系統。

大幅降低假帳號

DEC首先使用大量低精準度的機器生成的標籤來學習,這些標籤是通過臉書帳號的規則和其他機器學習模型產生的,模型可用來估計用戶是真實的還是假的。當有了這個基礎系統後,臉書再透過世界各國的真實帳號的使用情形來訓練DEC,一方面讓DEC更加精準,一方面也可以適應世界各國的不同文化。

最終DEC可以識別出四種類型的假帳號,分別是不能代表個人的非法帳號、攻擊者已經接管的真實用戶的受感染帳號、重複發送垃圾郵件的假帳號以及騙取個資的假帳號。臉書宣稱自從執行DEC以來,它能將在平台上的假帳戶的數量維持在每月活躍用戶的5%左右。

但是清理假帳號工作還有很長的路要走,在每個月有25億活躍用戶的情況下,5%表示仍有約1.25億個假帳號。但AI能做的大概也僅只於此,無論AI模型接受了多少的訓練,它都無法完美的捉到每個壞蛋,未來需要的可能就是朝向人與AI的合作來改進了。