盤點 2019 年的 AI 四大應用:人臉支付開始普及,語音合成讓 AI 詐騙電話興起

【為什麼我們要挑選這篇文章】幾年前,AI 還只是電影裡面的話題,但在今年,AI 已滲透到我們的生活與產業中,成為不可或缺的一環。

回顧 2019 年,AI 有四項熱門應用:語音合成、語音交互、人臉識別、圖像辨識。這些應用讓 AI 融入生活,也是 AI 發展的重要推動力。(責任編輯:郭家宏)

「《科技報橘》徵才中!跟我們一起定位台灣產業創新力 >> 詳細職缺訊息 
快將你的履歷自傳寄至 [email protected]

2016 年,AlphaGo 打敗了世界圍棋冠軍李世石,人工智慧接受了人類的膜拜。在這之前,人工智慧不是活在和人類談情說愛的電影裡,就是活在「人工智慧就要統治地球了」這類空洞的標題裡。

這一年,凱文.凱利預測人工智慧將成為日用品,聽起來彷彿很科幻,實現得卻很快。2019 年,在我們毫無意識的情況下,人工智慧就已經滲透到我們的日常生活了,今天,為你盤點人工智慧在 2019 年的四大熱門應用,看機器學習、電腦視覺、語音交互、自然語言處理等技術是如何在生活中落地的。

語音合成:5 秒就能複製聲音,AI 詐騙電話興起

世界上最美妙的技術,莫過於能實現一夜暴富的技術。

「我,秦始皇,打錢」和「我,美女,買茶嗎」的詐騙時代暫時結束了。2019 年,電話詐騙捲土重來,產業甚至升級,氣勢還更猛了。

是騙子們今年想賺錢的願望特別強烈嗎?其實是第一批 AI 詐騙犯已經上崗了。它們有著真實的電話號碼,感情充沛的語音,甚至還有像真人一樣的話術。

AI 電話詐騙不是中國特色,美國人也不堪其擾。2019 年還沒結束,美國人民就已經接到了 540 億通 AI 騷擾電話,比 2018 年多了 60 億。這也意味著,我們以後要面對的已經是一個被訓練了千億次的詐騙精英了。

TO 相關文章:
美國國會通過!每打一通 AI 騷擾電話,就是一張最高 30 萬台幣罰單

電話詐騙真正實現了多、快、好、賺,因為語音合成已經取代了人工。語音合成可以說是同時運用語言學和心理學的傑出之作,它的背後是文本轉語音(Text To Speech,簡稱 TTS)技術。這個技術我們都很熟悉了,不管是越來越俏皮的 Siri,或是可以定製語言導航的百度地圖,都是依靠的 TTS 技術。

語音合成最簡單粗暴的方法是拼接法,缺陷是拼接出來的語音聽起來就不像正常人,比如我們最常聽的「支付寶到帳 X 元」用的就是拼接法。

Google 實驗室旗下的 Lyrebird 公司,在 2017 年合成了川普和歐巴馬的演講,連美國人民都聽不出哪裡不對。

Lyrebird 靠的是神經網絡和機器學習。神經網絡把文本智慧轉換為自然語言,轉換時間之短可以秒計算;同時,智慧語音控制器能做到讓人根本意識不到是機器在說話。除了 Lyrebird 外,Google 的 WaveNet,百度的 Deep Voice,以及科大訊飛和騰訊等等都提供了開源的語音合成應用。

早期語音合成還需要大量的語料和訓練,現在訓練成本已經大大降低了。在 GitHub 一個開源項目裡,你只需要一個人 5 秒的音源,就能複製他的聲音,連語氣和情緒都能模仿。不過隨著「尖端技術大廠化」的行業發展趨勢,語音合成技術濫用的情況,目前的整體環境也得到了更好的改善。

語音合成技術也有溫情的一面。對視障群體而言,想看書只能靠觸摸,真人有聲書的數量也有限。現在,只需要二十分鐘,就能用 TTS 技術合成一本有聲書,讓機器像人一樣讀書了。

語音交互:每天接受數億次的語音辨識訓練,智慧音箱變聰明了

智慧音箱和 iPad、特斯拉 Model S 等,一起被《時代週刊》列為十年來最具影響力的科技產品。也許你會嗤之以鼻:不就是個能上網能聊天的音箱嗎?

回想起幾年前,是個廠家就要做音箱,是個音箱就自稱 AI。第一波嘗鮮的消費者們期待著尖端科技的回饋,最終卻只收穫了一個「笑話大全語音版」,想讓它幹點活,它耳背了,想和它聊個天,它就會打岔。對於這波只會講段子和學放屁的,大家的態度還是:你走吧,我媽媽不讓我和人工智障玩。

如何鑒別人工智能和人工智障?圖靈說:與它對話。

圖靈曾預測,到 2000 年人和電腦之間就可以用自然語言溝通。所謂的自然語言就是「說人話」。

為了和電腦對話,曾經是人主動學習電腦的二進制語言,現在是人在讓電腦運用人的語言,這背後的核心就是人機交互技術。

人機交互主要分三步:先聽,然後理解,最後給出回饋。

通過自動語音識別技術(Automatic Speech Recognition,簡稱 ASR),智慧音箱可以把聽到的聲音轉換成文字。ASR 已經是個非常成熟的技術了,「中英文混合」和「方言」的識別也不在話下。

聽清之後,智慧音箱還需要對轉換後的文字進行處理,把自然語言轉換成機器語言,方便機器做閲讀理解明確意圖,這一步就要用到自然語言理解技術(Natural Language Understanding,簡稱 NLU)。鑒於中文的博大精神,自然語言理解的難度係數不是一般的高,例如那句經典的校長說:「校服上除了校徽別別別的,叫你們別別別的別別別的,你非得別別的」,你看笑了,機器卻聽哭了。

最後機器還需要作出回饋來滿足用戶的需求,比如說和你對話聊天、幫你開關燈或搜尋推薦內容。同時,機器還會把回饋結果說出來,這就用到了上文的 TTS 技術。

最近中國科學院物聯網研究發展中心給智慧音箱打了一次分。用 8240 次對話,對百度、騰訊、天貓、小米四家的智慧音箱進行了測評。綜合三個維度,只有小度(百度)在家 1S 的得分達到了 80(聽清率 98.5% * 聽懂率 92.89% * 滿足率 86.9%),騰訊的得分為 54,剩下兩家的得分都在 50 分以下。人工智慧還是得靠技術說話,依靠在語音領域多年的技術積累,百度提前贏下了這場比賽。

隨著(中國)國內巨頭對智慧音箱市場的進一步投入,整個行業的產品價格持續走低,無屏音箱最低價幾乎全部被打到百元以下,四捨五入相當於白送,讓許多人迅速過上了家裡有「機器人」的生活。上春晚、搞綜藝、跨界行銷,國內第一的小度也嗖的一下子成為了「智能音箱領域的國民級品牌」。用著用著我們也發現,智慧音箱好像變得沒那麼智障了,開始聽得懂人話了。

現在,上至村口老大爺,下至三歲小寶寶,都能和智慧音箱聊上幾句了。智慧音箱已經變成了和我們一起生活的小機器人,人工智慧就是它的大腦,「音箱」只是它的過渡性載體之一。這個小機器人已經迎來了第一次升級,「小度在家智能屏 X8」賦予了它表情和動作,只要你一個眼神就能喚醒螢幕,做個手勢就能操控,它還能自動識別人臉切換到兒童模式。

人臉識別,切換兒童模式

當然,嚴格意義上的圖靈測試離我們還相當遙遠,智慧音箱還有著很大的優化和升級潛能,這個潛能恰恰是和用戶量和你的使用次數正相關的。根據 Canalys 的統計,截至今年 Q3,小度有屏音箱的出貨量已經是世界第一了,小度智慧音箱的出貨量也達到了中國第一、世界第二,僅次於 2014 年就入場的亞馬遜。同時,小度音箱搭載的語音操作系統小度助手,每天也在接受著數億次的訓練,甚至養成了一個「自學習 AI 系統」。現在,你可能依然覺得智慧音箱產品還有點笨,但可以預見的是,它會成長得很快。

人臉識別:除了支付、逮捕犯人,它還被用在「A 片識別」

眾所周知,每個販賣機裡面都有一個人。

例如下面這個刷臉支付遇上當機,只好在販賣機裡住了一天的人。

現在付錢買單、密碼門禁都要「刷臉」了,人臉識別也成了電腦視覺在日常生活中最常見的應用。

人臉識別可以分為兩類:一類是「一對一」,也就是認證「你是你」;另一種是「一對多」,也就是識別「你是誰」。

一對一認證,一種是提取你的身份證,再和鏡頭前的你進行對比;另一種則更簡單,直接用鏡頭記錄你的人臉資訊,比如 FaceID。技術門檻相對較低,所以刷臉認證的產品遍地瞎開花,其中刷臉領衛生紙應該是最具「中國特色」的人工智慧了。

TO 相關文章:
【覺得赤裸】中國公廁抽衛生紙要「刷臉」,一次還只能拿 60 公分

要領取廁紙先刷臉,堅決剝奪你的拉肚子自由

一對多識別的基礎是人臉庫,將識別到的人臉與庫中的圖像進行對比。光在張學友一個人的演唱會上,就已經利用人臉識別技術抓捕了超過一百名逃犯。

張學友:我都快忘記我警察的身份,真的以為自己是個歌星了。

見微知著,電腦視覺的發展也反應在一家網站小小的進度條上,這家網站就是全球最大的成人網站 PornHub。

早在 2017 年,P 站就上線了 AI 系統,用人臉識別技術來自動識別影片中的演員,這個系統最初的訓練物料包括了成人明星的照片和數千部影片。後來 P 站又掃瞄了數百萬部影片,最終訓練出了不僅能識別人臉,還能自動識別影片中的場景和姿勢等資訊的系統。P 站曾在進度條上加上了熱力圖,用峰值波動來反應對應時間段的播放熱度,這在影片網站中引領了一波風潮;現在,這個進度條已經進化到能自動識別和標註每個時間段的劇情了 ,至於是什麼劇情,咱也不知道,咱也不敢問,就讓人工智慧默默造福全人類吧。

圖像處理:deepfakes 技術開源,沒程式基礎也能輕鬆換臉

今年的朋友圈短暫的被各種換臉小影片洗版了一下。

在換臉軟體 ZAO 中,只要上傳一張照片,你就可以把自己的臉換到明星臉上。輕鬆實現和本命談戀愛,和愛豆共飆戲的夢想。

換臉技術看著厲害,其實你也可以,只需要瞭解一下 deepfakes 技術。

deepfakes 是一個工程師在社區 Reddit 的用戶名,2017 年,這名工程師在 Reddit 發佈了一部不可描述的小電影,小電影裡的女主角竟然是神奇女俠蓋爾.加朵。只用了一部電腦和開源的 AI 工具,這名工程師就訓練出了換臉演算法,把明星的臉換到任意影片中,影片中換臉後的眼神和嘴型這些細節都已經相當真實。

這種訓練源於生成式對抗網絡(Generative Adversarial Network,簡稱 GAN)。所謂對抗,就是兩個機器模型之間的博弈。基於一個原始影片,一個模型負責生成相似的影片,另一個模型則負責鑒別兩個影片之間的差異,在海量的對抗訓練之後,最終會生成幾乎找不到差異的偽造影片。

在這名工程師製作了一波又一波明星臉色情影片後,他的帳號終於被封殺了。於是他一怒之下將換臉項目開源了,「邪惡勢力」就此登場了。

讓這項技術走向不可控的一大原因是超低的工具門檻,今年大火的 ZAO 只不過是把換臉這一技術變得更容易操作而已。現在,即便你沒有任何程式基礎,只要你有一台電腦,安裝 deepfakes 開源的工具包後,只需要半天的學習,你也可以訓練換臉術了。

有人將重大技術的變革比作一列火車,它臨近時你聽到了轟隆隆的聲音,你期待著它的到來,卻又覺得還很遠。等它終於來了,卻又只是一閃而過就把你甩在身後。

人工智慧就是這樣一列火車。2019 年,我們習慣了刷臉,沉迷於換臉,和 AI 探討了一下人生,也順便被騙走了一些錢。在這個時候,對人工智慧的歡呼和抵制都是無意義的,因為火車已經開過來了。

(本文經合作夥伴 品玩 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈从科幻到日常,盘点 2019 年人工智能四大热门应用 〉。首圖來源:Flickr CC Licensed

更多關於 AI 的資訊

台灣誕生 2 隻獨角獸!沛星被財富評為「前 50 強 AI 公司」,Gogoro 吃下台灣兩成市占
重複性高的工作會被 AI 取代?美國研究:主管、分析師等高薪職位更容易失業
台灣的「小」是發展 AI 的優勢!中研院院士孔祥重:台灣產業橫向連結性強


遠端工作免費資源在這!

高品質線上會議工具,簡單 3 步驟註冊免費體驗

馬上註冊

點關鍵字看更多相關文章: