AI 影像生成動用「GAN 技術」,連舞癡都能跳出超專業舞蹈

AI 人工智慧 影片 圖片

【我們為什麼挑選這篇文章】AI 界中誰能最快掌握影像生成的技術,誰就能最快佔盡影視界中無數的金礦。現在影像生成的技術演變到只要畫幾條線,AI 就能製造出假以亂真的影片。然而,無論是對 AI 技術或是對電腦硬體的需求都很龐大。

如果要將 AI 影像生成的技術做到最好,又要普及,這議題就不只是 AI 界的關注點,半導體、晶片產業都是。(責任編輯:陳伯安)

隨著 AI 技術持續進步,人們對 AI 生成的圖像影片越發感到真實自然

AI 生成的圖像影片讓人們越來越難辨別真偽,因為它生成的圖像影片實在是太真實了,背後的技術其實用到了 Generative Adversarial Networks(GANs,對抗式生成網路)的變形,如果對這技術沒興趣可以跳過它的發展歷史解釋直接看實際案例。

AI 研發進展:從深度學習到 GANs

Deep Learning 深度學習(或是說 Deep Neural Network)只要是有在關注 AI 技術的人都非常熟悉,它的相關演算法在 2015、2016 ImageNet 競賽突破人類辨識分類的準確率後,人類永遠追不上機器,Deep Learning 的變形衍生就一直在科學研究及實際 AI 應用有很大的進步,像是人臉辨識就是用 Convolutional Neural Network 所做到的,也已經造就了中國商湯科技(SenseTime)獲得 6 億美金(約 180 億台幣)的 C 輪融資,估值達到 45 億美金(約 1,350 億台幣)。

Deep Neural Network 下有一個變形是 Generative Adversarial Networks(GANs,對抗式生成網路),它是由 Ian Goodfellow 在 2014 年所提出。Facebook AI 大師 Yann LeCun 在接受 Quora 專訪時說「GAN 及其變形是近十年最有趣的想法」, 由 GAN 衍生的研究論文數量也級數增長。

GAN 論文成長量,圖片來源

GAN 運作起來就像偷渡遊戲:一個當偷渡商,一個當海關

所以什麼是對抗式生成網路?引述自 AI 部落格主 Adit Deshpande 的 解釋 ,更加清楚直白:

GANs 的基本原理是它有兩個模型:一個生成器,一個判別器。判別器的任務是判斷給定圖像是否看起來「自然」,換句話說,是否像是人為(機器)生成的。而生成器的任務是,顧名思義,生成看起來「自然」的圖像,要求與原始數據分布儘可能一致。

GANs 的運作方式可被看作是兩名玩家之間的零和遊戲。原論文的類比是,生成器就像一支造假幣的團伙,試圖用假幣矇混過關。而判別器就像是警察,目標是檢查出假幣。生成器想要騙過判別器,判別器想要不上當。當兩組模型不斷訓練,生成器不斷生成新的結果進行嘗試,它們的能力互相提高,直到生成器生成的人造樣本看起來與原始樣本沒有區別。

GAN 可以去除圖片內的多餘物

我們有時拍照時,會有不希望出現的路人在背景圖裡,2012 年 PhotoShop 就已經可以做到可以去除路人,然而背後的演算法持續精進,現在可以用 GAN 的衍生演算法做到。

原圖:Arunabh Sharma,圖片來源

食物挖空來補圖,比賽哪家 AI 最厲害

今年痞客邦的黑客松,就是把食物的圖片中挖掉一塊不規則形狀,讓參賽的隊伍去實作 AI 影像生成,由現場的觀眾投票看哪一張 AI 生成的食物比較真實而願意去吃,獲得最多票數的得獎。筆者親自實作了演算法,故意挑了比較誇張的圖片放上來,並不是每個 AI 生成的影像都很完美。當然這都可以透過訓練資料的選擇,訓練次數多寡來讓模型的影像生成更好。

下圖是用 PConv-Keras 實作的 Partial Convolutional Neural Network。給了一張如下的圖片。

要被填空的食物圖片,圖片來源

經由 AI 演算法後產生出下面兩張圖

食物 AI 影像生成,圖片來源

哪一張圖你覺得比較自然呢?

AI 只用手繪草稿線條,就能即時生成圖像

拿隻黑筆把貓的輪廓用簡單線條畫出來,Pix2Pix 會根據形狀、人們的繪畫還有真實世界的圖來自動完成整隻貓的上色。

Pix2Pix 即時影像生成,圖片來源

舞癡也能完美跳出專業級舞蹈,有 AI 就行

加州柏克萊的研究團隊,把跳舞高手的影片錄製下來,用演算法找出肢體的軸線,然後把不會跳舞人的肢體軸線找出來,兩個軸線互相對齊後,把肢體動作投射到不會跳舞的人上,產生出來的影片變成不會跳舞的人在影片中會跳舞了。

以上案例是筆者覺得比較有趣的,當然還有其他案例就不細講,像是風格轉換:透過生成,就可以輕易把梵谷畫風轉移到另一張照片上了。高解析度影像生成:透過不斷的生成與判別,模型最後可以訓練出比原圖更高清畫質的圖像。

PConv-Keras 的 Github 送給你!

AI4quant CEO Jason Chuang 表示歡迎想利用 AI 提升公司企業內部流程的品質或效率的公司行號來 諮詢討論

參考資料來源:

《AI4quant 部落格》:https://ai4quant.wordpress.com/2018/09/03/ai-image-video-generation-through-ganish-algorithms/

(本文經投稿作者 AI4quant 授權刊登,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈隨著 AI 技術持續進步,人們對 AI 生成的圖像影片越發感到真實自然〉。意投稿者可寄至:[email protected],經編輯檯審核並評估合宜性後再行刊登。)

延伸閱讀

深度學習一秒救回爛照片,NVIDIA 新技術消除雜訊變成高清畫質圖
NVIDIA 讓 AI 學會造人!隨便給幾條線,AI 都能製造出擬真度 100% 的假影片
微軟考慮在中國採用華為 AI 晶片,這是 NVIDIA 霸權被撼動的第一步嗎?

點關鍵字看更多相關文章: