Google AI 大神李飛飛新論文:只要說出需求,AI 自動把圖畫出來

 

 

 

 

 

 

 

【我們為什麼挑選這篇文章】Google 的 AI 中國中心負責人李飛飛,這次發表了能讓 AI 畫圖畫得更好的方法。

這篇文章解釋了李飛飛團隊的這篇論文,相當清晰好懂,能更了解利用 AI 執行文字轉成圖像的過程(責任編輯:康陳剛)

設計師們可能常會拿到這種簡單,甚至有點無聊的案子。

業主:幫我做張海報吧!我要一個浪漫的場景,兩個人在海邊走,有日落、海浪,還有遠山那種。(然後等你做出來後,再把山啊海啊字啊通通改掉。

如果有一款神器,可以根據文字生成圖像,快速做出一般客戶需求的海報,設計師們也許就可以把更多的時間用在創意上了。

文字轉圖像演算法

李飛飛的史丹佛團隊,今年發表在 CVPR(國際電腦視覺與模式識別會議)的論文 Image Generation from Scene Graphs,就和這項應用有關。

在電腦視覺領域,已經有不少團隊製造出能把文字轉成圖像的演算法。在這之前,表現最好的是 2017 年在 ICCV(國際電腦視覺大會)上露面的 StackGAN,是由香港中文大學和百度研究院共同出品。

我們先來看看 StackGAN 的表現:

第一題:This bird is white with some black on its head and wings, and has a long orange beak.(畫出一隻白鳥,它的頭部和翅膀帶點黑色,還有個很細長的橘黃色鳥喙。)

StackGAN 畫出的第一題:一隻白鳥,它的頭部和翅膀帶點黑色,還有個很細長的橘黃色鳥喙。
StackGAN 畫出的第一題:一隻白鳥,它的頭部和翅膀帶點黑色,還有個很細長的橘黃色鳥喙。

再來看看第二題:A sheep by another sheep standing on the grass with sky above and a boat in the ocean by a tree behind the sheep.(畫出兩隻羊站在草原上,上方有藍天,羊後面要有一棵樹,再畫上海,海中還要有船。」

StackGAN畫出的第二題:兩隻羊站在草原上,上方有藍天,羊後面要有一棵樹,再畫上海,海中還要有船。
StackGUN 畫出的第二題:兩隻羊站在草原上,上方有藍天,羊後面要有一棵樹,再畫上海,海中還要有船。

對於語義簡單的句子,StackGAN 還能理解,可是句子中有 多個物體 ,而且 位置關係複雜 的話,這個生成的圖像就完全不能用了。

為了解決這個問題,李飛飛和團隊成員 Justin Johnson、Agrim Gupta 想出了一個辦法:先把文字處理一下,把句子中的物體及它們的相對位置用一個物體關係圖(Scene Graph)表示出來,再交給模型處理。(如下圖)

物體關係圖
物體關係圖

生成出來的圖果然好多了,更貼近真實世界(雖然還有點模糊)。

利用物體關係圖畫出的第二題
利用物體關係圖畫出的第二題

加一步,多面臨三重挑戰

為了生成更符合物理世界規律的圖像,生成過程中所用到的素材,必須取自真實世界的圖像。

因此第一個挑戰就是,要建構一個能處理真實圖像的輸入處理器。除此之外,生成的每個物體都必須看起來真實,而且能正確反映出多個物體的空間透視關係。

最後,就是整個圖中所有物體整合到一起,要看起來自然和諧。

訓練過程簡介

先是在 Visual Genome 和 COCO 兩個數據集中,選取圖片作為素材來源,並只挑那些含有 3 到 8 個物體的圖片。然後把這些圖片人工給出物體關係圖。(如下圖)

再用模型預測物體之間的位置,大概給出一個圖片元素的佈局。

最後根據多個判別模型,保證輸出的圖像是符合真實感知的。

整個訓練過程如下圖:

成果

為了知道這樣操作出來的圖片看起來夠不夠真,李飛飛團隊在 Amazon Mechanical Turk 平台上找了人幫忙評估。結果, 和 StackGAN 相比,這個方法的合成效果好了一倍

調查結果顯示,有 67.6% 的人認為,利用物體關係圖畫出的圖比 StackGAN 的圖更符合指令。
調查結果顯示,有 67.6% 的人認為,利用物體關係圖畫出的圖比 StackGAN 的圖更符合指令。

最後,附上論文地址:https://arxiv.org/abs/1804.01622

(本文經 量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈 李飞飞 CVPR 最新论文 |「文本转图」效果优化可多一步:物体关系描述 〉;首圖來源:Youtube。)

延伸閱讀

Google AI 首席科學家李飛飛:AI 不是用來取代人類,「關懷人類」才是目標
AI 辨識+語音助理:美國新創 Aira 打造出一副幫盲人看清世界的眼鏡
馬雲的開心農場:阿里巴巴用 AI 養 1000 萬頭豬,每隻母豬還能多生三隻小豬仔


【徵求產業線編輯 3 名】

工作內容與需求:

1. 高度關注國際科技趨勢、台灣產業新聞
2. 根據月度編輯台企劃,執行編輯、採訪與撰稿工作
3. 進行線上、線下媒體策展
4. 根據不同策展專案進行跨部門溝通
5. 針對網站數據做解讀與優化分析
6. 具有 2~3 年工作經驗的媒體工作者
7. 習慣閱讀《彭博社》、《財富雜誌》、《金融時報》、《Fast Company》者更佳
8. 目標導向思考,對準目標、彈性工作

【應徵方式】

意者請提供履歷自傳以及「相關文字作品」,寄至 [email protected]。來信主旨請註明:【應徵】TechOrange 社群編輯:您的大名

點關鍵字看更多相關文章: