
【為什麼我們要挑選這篇文章】AI 不只可以換臉,還可以變聲音。歐洲今年有個 AI 電話詐騙,駭客用 AI 模擬總部的 CEO 聲音,成功騙取受害公司 22 萬歐元(約 770 萬新台幣)。這不是第一起 AI 模仿語音詐騙,中國更常有這種詐騙。如果我們接到這種電話,該如何分辨與防騙?(責任編輯:郭家宏)
可以利用 AI 詐騙的可不止是一些新創公司,現在 AI 技術如此發達,換臉都能輕鬆實現,那聲音呢?
提到這種變聲技術,大家最先想到的可能是《名偵探柯南》中,柯南使用的蝴蝶結變聲器,柯南正是利用阿笠博士的這個發明把「沉睡的毛利小五郎」捧上了偵探界的神壇。
但是如果有人把這項技術用於詐騙,是不是頓時背脊發涼?
據《華爾街日報》報導,今年 3 月份,有犯罪分子就使用了類似的 AI 技術,成功模仿了英國某能源公司在德國母公司 CEO 的聲音,詐騙了 22 萬歐元(約 770 萬新台幣)。
網絡犯罪專家稱,這是駭客攻擊中,利用 AI 技術的一次不尋常案例。
駭客用 AI 變聲佯裝 CEO,詐騙 22 萬歐元
案發時,該公司的 CEO 誤以為他正在與他的老闆,也就是德國母公司的 CEO 通電話,老闆要求他將資金匯給匈牙利供應商。據該公司的保險公司 Euler Hermes Group SA 稱,來電者表示該請求非常緊急,要求行政人員在一小時內付款。
慕尼黑的金融服務公司 Allianz SE 旗下子公司 Euler Hermes 的欺詐專家 Rüdiger Kirsch 說,犯罪分子總共打了三次電話。22 萬歐元轉移後,他們打電話說母公司已經轉移資金償還英國公司,然後他們在當天晚些時候進行了第三次電話會議,再次冒充 CEO,要求第二次付款。由於轉帳償還資金還沒有到來,而第三次電話是來自奧地利的電話號碼,行政部門開始懷疑,沒有支付第二筆款項。
根據 Kirsch 先生的說法,轉入匈牙利銀行帳戶的資金,隨後轉移到墨西哥並分發到其他地方,調查人員沒有發現任何嫌犯,而且,Euler Hermes 承擔了受害公司索賠的全部金額,但沒有處理要求追回涉及 AI 犯罪損失的索賠。
Kirsch 先生認為,使用 AI 詐騙對公司來說是新的挑戰,傳統網絡安全工具無法發現欺騙性的聲音,而駭客往往就是使用商業語音生成軟體進行攻擊。Kirsch 先生用這種產品錄製了自己的聲音,並說複製版本聽起來很真實。
目前還不清楚攻擊者是否使用機器人對受害者的問題作出反應。歐洲刑警組織歐洲網路犯罪中心戰略負責人菲利普.阿曼說,如果他們這樣做,執法當局調查可能會更加困難。Kirsch 先生說,警方對此案的調查已經結束,歐洲刑警組織沒有參與。
AI 能夠模仿聲音,還會加入感情讓聲音更真實
其實,執法當局和 AI 專家早有預言,犯罪分子將使用 AI 進行自動化網路攻擊。無論是誰策劃了這一事件,他們都已經使用 AI 軟體成功地透過電話模仿了德國高管的聲音。
雖然有歐洲官員表示,這是他們第一次聽說在歐洲發生 AI 變聲語音詐騙,而且犯罪分子明顯依賴於 AI 變聲技術,但這遠非第一起利用語音進行詐騙的案件,在中國,變聲技術早已被用於網路詐騙中,人民網微博最早在去年八月就發佈了利用微信語音詐騙的案件消息。
犯罪分子利用的是一種名叫「增強版微信」的軟體,這種增強版微信具有能夠轉發語音消息、複製好友朋友圈、看到對方撤回的消息等功能。
據稱,這些功能都是服務於一些「特殊用戶」的,例如自定義位置,就能讓客戶在國內實現「海外度假」,或者讓一些商家假裝自己是「海外代購」等。
脫離微信而言,利用聲音合成技術也已經實現了語音複製。
去年,三名蒙特利爾大學博士聯合創辦的名為「琴鳥」(Lyrebird)的公司,開發出了一種語音合成技術,只要對目標人物的聲音進行 1 分鐘的錄音,丟給 Lyrebird 處理,就能得到一個特別的密鑰,利用這個密鑰可以生成目標人物任何想說的話。
琴鳥(Lyrebird)不僅能利用語音模仿演算模仿出任何人的聲音,還能在聲音中加入感情元素,讓聲音聽上去更為逼真。
去年 Black Hat 大會上也展示了一種聲音模擬技術,這項技術是透過獲取某人長時間的錄音,拼接其聲音片段實現模擬。阿曼先生表示,雖然很難預測使用 AI 的網路攻擊是否會很快上升,但如果 AI 技術能夠讓駭客攻擊更成功或更有利可圖,他們會更傾向於使用該技術。
基於神經網路和機器學習的 AI 變聲技術
不管是成功詐騙歐洲公司的駭客們利用的技術,還是加拿大的琴鳥(Lyrebird),它們最終都能得到高還原度的合成聲音,在這背後依賴的技術正是神經網絡(Neural Network)和機器學習(Machine Learning)。
神經網絡透過模擬電信號在人腦神經元之間的傳遞過程,對輸入數據進行處理,同時利用分層的神經元,從大量樣本數據中總結出共同特徵。
第一個用神經網絡生成人類自然語音的,就是 Google 的 DeepMind 研究實驗室發佈的 WaveNet。
接下來就以 WaveNet 為例,簡單介紹一下 AI 是如何透過神經網絡和機器學習來合成語音的。
論文傳送門
WaveNet 是基於 PixelCNN 的音頻生成模型,在這個生成模型中,每個音頻樣本都以先前的音頻樣本為條件。條件機率用一組卷積層來建模。這個網路沒有池化層,模型的輸出與輸入具有相同的時間維數。
在模型架構中使用臨時卷積可以確保模型不會違反數據建模的順序。在該模型中,每個預測語音樣本被反饋到網路上用來幫助預測下一個語音樣本,由於臨時卷積沒有週期性連接,因此它們比 RNN 訓練地更快。
使用臨時卷積的主要挑戰之一是需要很多層來增加感受,為瞭解決這一難題,作者使用了加寬的卷積,加寬的卷積使只有幾層的網絡能有更大的感受野。模型使用了 Softmax 分佈對各個音頻樣本的條件分佈建模。
這個模型在多人情景的語音生成、文本到語音的轉換、音樂音頻建模等方面進行了評估。測試中使用的是平均意見評分(MOS),MOS 可以評測聲音的品質,本質上就是一個人對聲音質量的評價一樣。它有 1 到 5 之間的數字,其中 5 表示品質最好。
可用 AI 反制 AI 詐騙,相關檢測技術正在研究中
聯合國區域間犯罪與司法研究所人工智慧與機器人中心主任 Irakli Beridze 表示,將機器學習技術應用於欺騙性聲音使網路犯罪變得更加容易。
聯合國中心正在研究檢測虛假影片的技術,Beridze 先生稱,這對於駭客來說可能是一個更有用的工具。「想像一下,以 CEO 的聲音進行視訊通話,這是您熟悉的面部表情,這樣的話你根本不會有任何疑慮。」他說。
推特上有網友對此也發表了看法,認為可以利用 AI 技術破除 AI 難關,或許這會成為未來解決類似問題的主要辦法之一。
在百度上輸入「語音詐騙」、「識別」等關鍵字,可以看到百度經驗的相關文章,雖然這些經驗都已經相當古早,但能看出大家與這類詐騙的對抗已然是相當持久。
不管怎樣,希望相關的識別技術能早日研究出來。
原文報導傳送門
(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為〈欧洲首例AI诈骗!用CEO声音骗走22万,逼真语音合成只需1分钟录音〉。首圖來源:Max Pixel CC Licensed)
更多關於 AI 的消息
漏檢率趨近於零!台達 AI 視覺檢測解決方案高效掌握瑕疵零件,大幅提升產品良率
採用比 AlphaGo 更複雜的演算法,日本麻將 AI 在四個月內電爆人類玩家!
【台灣石虎靠 AI 來保護】遠離路殺!這套 AI 系統創下首個阻擋石虎過馬路的紀錄