【蘋果發表第一篇 AI 論文】類神經網路如何讓電腦合成照片逼真得難以分辨?

【為什麼我們挑選這篇文章】人工智慧發展迅速,這原本只在科技領域中較常見的名詞,正一步步走往商用的領域,其中 Google、Facebook、Amazon 等大企業無不想在這領域中搶下主導地位,為的就是人工智慧發展的潛力跟極大的商機。

而 Apple 剛推出 Siri 時,看似在人工智慧領域中領先群雄,但隨著其他企業深研發展、進步,Apple 並未繼續擴展,自然就落到後頭,但他們最近發佈了與人工智慧有關的論文,不同以往他們保密的行事風格,看來不只是吸大家的眼球,也力圖搶回當時領先的地位。(責任編輯:張瑋倫)

2011 年蘋果推出 Siri 的時候,似乎在人工智慧上領先了其他大公司不少的距離——並非如此。在之後的 5 年裡,Google、Facebook、Amazon 等大公司相繼將人工智慧提到了公司級核心戰略的位置,蘋果並未給人留下什麼深刻的印象。

為了追趕競爭對手,在今年 9 月的秋季發布會上蘋果正式推出了 iOS 10,著力宣傳了其中不少通過人工智慧的方法實現的功能,比如照片應用可以自動識別人臉來幫助用戶管理照片等等。

在本月早些時候結束的 NIPS 大會上,蘋果的人工智慧總監,卡內基梅隆大學教授魯斯·薩拉庫蒂諾夫(Russ salakhutdinov)透露了蘋果將要發佈人工智慧論文的消息。他的一張 PPT 截圖吸引了人們的眼球:

蘋果能發論文嗎?能

我們能和學界積極交流嗎?能

聖誕節前,一篇由多名蘋果深度學習研究員署名的文章終於正式出現在了論文庫 arXiv 的機器視覺板塊裡。

該論文標題為 《Learning from Simulated and Unsupervised Images through Adversarial Training》,描述了蘋果正在使用的一種特殊的方法,能夠顯著降低訓練圖像識別用途神經網路的成本。

這篇論文提出的方法能夠讓神經網路使用電腦生成的「合成圖片」(synthetic image)訓練,取得和使用真實世界照片(real image)訓練一樣好的效果。

具體來說,在人工智慧學界和業界人們通常認為使用真實世界照片去訓練圖像識別系統的效果更好。但這樣做的成本往往是很高的,因為電腦能看懂一張照片的前提是照片已經被打上了標記。

舉個直觀的例子:想讓電腦看懂下圖,需要提前把照片裡的關鍵元素打上標記,這個是手那個是杯子等等。

但這種標記的工作很比較消耗時間、金錢和人力。當研究者在這些資源上比較稀缺的時候,也可以選擇使用電腦聲稱並已經打好標記的合成圖片。合成圖片在業界看來劣勢在於「不夠真實」,導致使用合成圖片訓練的神經網路,在識別真實世界照片時性能並不算好。

在論文中,蘋果宣稱他們採用了一種類似於 生成式對抗(Generative Adversarial Networks , GAN)的神經網路模型。GAN 在過去比較主要的用途之一就是訓練電腦生成擬真的照片,形象來講,就是用一個生成「合成圖片」的網路,和另一個提供真照片的數據集進行對抗,再用一個單獨的鑑別網路進行鑑別。

蘋果的科研人員在 GAN 基礎之上,對模型做出了一些比較重大的調整,比如輸入的不是隨機向量而是合成照片,最終提出了這種他們稱為「Simulated + Unsupervised」(模擬+未監督)的學習模型:

蘋果認為,這篇論文對機器視覺做出的貢獻,除了提出了新的學習模型之外,還包括使用了這個模型在完全無人工對圖片標記的前提下成功訓練出了一個優化網路(Refiner),讓電腦能夠生成出更「真實」的合成照片——圖片失真更少,真實性水準更穩定。

該論文的第一作者是 Ashish Shrivastava,蘋果深度學習研究員。其他作者包括 Tomas Pfister、Oncel Tuzel、Wenda Wang、Russ Webb 和 Josh Susskind 。其中 Josh Susskind 是深度學習機器視覺公司 Emotient 的創始人,該公司今年剛剛被蘋果收購。

(本文經合作夥伴品玩授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈蘋果發布首篇 AI 論文,讓計算機生成更“真實”的合成照片 〉。)

延伸閱讀

攏是為著 iPhone?蘋果全力衝刺 AI 市場, 4 天併購 2 間人工智慧公司
Google、微軟的圖像識別技術行不行,都要「她」說了算
IBM 人工智慧 Watson,圖像辨識 Demo 網站上線

點關鍵字看更多相關文章: