NVIDIA 讓 AI 學會造人!隨便給幾條線,AI 都能製造出擬真度 100% 的假影片

NVIDIA 圖 寫實 電影 製圖

【為什麼我們要挑選這篇文章】NVIDIA 和 MIT 的最新研究沒在開玩笑,是破天荒的厲害。這個研究團隊設計出一款強大的 AI 神經網絡,讓人只要提交線條的勾勒圖就可以一秒變真品。而這不只限於無生物,就連一個跳舞的妹子也能隨意生成!什麼是終極的寫實?讓這個 AI 告訴你(責任編輯:陳伯安)

記得神筆馬良的故事麼?

拿到神筆的馬良,可以畫物品、畫動物、畫食物,而且,這些畫作都可以一秒鐘從畫面上出來,變成真實世界中存在的東西。

雖然這只是一個童話故事,不過,NVIDIA 和  MIT 聯手的最新研究,基本上馬良的「神筆」造了個八九不離十。

來自 NVIDIA 和  MIT 的研究團隊,最近搞出了迄今最強的高清影片生成  AI。這個團隊,包括來自 NVIDIA 的 Ting-Chun Wang、劉明宇(Ming-Yu Liu),以及來自 MIT 的朱俊彥(Jun-Yan Zhu)等。

他們的成果到底有多強、多可怕?一起來看。

借我一個簡單的勾勒圖,我就還你一個「史詩級」的無違和電影場景

只要一幅動態的語義地圖,你就可以獲得和真實世界幾乎一模一樣的影片。換句話說,只要把你心中的場景勾勒出來,不用去實拍,電影級的影片就可以自動  出來,像下面一樣:

這可不是在播放錄像,街景中的道路、車輛、建築、綠植都是自動生成的。原本只是簡單勾勒景物輪廓的語義分割圖,搖身一變就成了真實的街景。

真實的有點過分。

而且,還可以生成各種不同風格的影片:

甚至,它還能把街景改掉。比如把道路兩側的建築全都變成樹木,頓時有一種行駛在森林公園的感覺:

或者把行道樹也給變成建築,不過這些建築倒是看起來有年頭了:

隨意的生成變化,就像偷來了哈利 ·波特的魔杖,無需咒語,就可以把這個場景中所有的元素變變變。

還有厲害的。

借我一個人臉草圖,我就還你一個 1080p 「超寫實」人臉

通過一個簡單的素描草圖,就能生成細節豐富、動作流暢的高清人臉:

根據勾勒出的人臉輪廓,系統自動生成了一張張正在說話的臉,臉型、面部五官、髮型、首飾都可以生成。

甚至還主動承擔了給人臉繪制背景的任務。

除此之外,人臉的面色、發色也可以定制化選擇,皮膚或深或淺,發色或黑或白,全都自然生成無壓力:

面色紅潤 style
一臉蒼白 style
臉色蠟黃 style

簡直就像同一個人染了頭髮拍了三遍,這種逼真的效果,真怕有一天朋友圈三無化妝品微商們拿去造假騙人。(當然,仔細看眉毛,還是有一些破綻)

不只人臉,整個身子都能搞定:

隨著左側人體模型的跳動、位移和肢體不斷變換,右側的真人影片中,主角也在隨之舞蹈,無論你想要什麼樣的姿勢,變高、變矮、變胖、變瘦,只要把左側的人體模型調整一下,右側的真人影片就會乖乖的聽你調教。

與之前的研究相比,NVIDIA 這個  vid2vid 的效果怎麼樣,大家一看便知。

這是  2017 年  ICCV 上的  COVST 的效果:

這是  2018 年  CVPR 上的  pix2pixHD 的效果:

而最新的效果是這樣:

沒有模糊,沒有扭曲,沒有異常的閃動,畫面平 穩流暢,色調柔和。如果應用在影片生產中,簡直可以讓摳圖小鮮肉們一年拍  10,000 部電影都不成問題。

最後,清晰的效果歡迎大家點開影片查看:

要觀看影片可到此處觀賞: 量子位

研究團隊怎麼做到這效果?

這麼  NB(TO 編按:大陸用語「牛逼」)的效果,是怎麼實現的?

說下要點。

研究團隊使用了序列生成器和多尺度 鑒別器來訓練神經網絡。生成器接收輸入映射和前序幀,然後生成中間幀和  Flow mapFlow map 用於處理前序幀,然後與中間幀合併,從而生成最終幀。

生成下一幀時,最終幀變成輸入,以此類推。

鑒別器共有兩種,一種處理圖片,一種處理影片。

圖片 鑒別器同時獲取輸入圖像和輸出圖像,並從多個特徵尺度進行評估,這與  pix2pixHD 類似。影片 鑒別器接收  Flow maps 以及相鄰幀以確保時間一致性。

所有幀在進入 鑒別器之前,還進行了下採樣,這可以看做是時域中的多尺度。

訓練從低分辨率開始,然後結合低分辨率特徵進行高分辨率的訓練。同樣,訓練先從幾幀開始,然後逐漸增加訓練幀的數量。這兩個步驟不斷交替,形成漸進式的訓練流程,最終讓神經網絡學會生成高分辨率和長時間的影片。

更多細節,可以從  Paper 中查看。

論文中表示,這是一種在生成對抗性學習框架下的新方法:精心設計的生成器和 鑒別器架構,再加上時空對抗目標。這種方法可以在分割蒙版、素描草圖、人體姿勢等多種輸入格式上,實現高分辨率、逼真、時間相關的影片效果。

這種新方法訓練出來的模型,能夠生成長達  30 秒的  2K 分辨率街景影片,顯著提升了影片合成的技術水平,而且這個方法還能用來預測未來的影片發展。

論文傳送門:

https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf

GitHub 上開放下載,你也值得擁有

好消息是,相關代碼也已經在  GitHub 上公佈。

而且研究團隊給出了詳細的訓練指南,可以算是手把手教你如何自己訓練出一個類似的強大神經網絡。

包括用  個  GPU 怎麼訓練,用  個  GPU 又該怎麼設置等等。

你所需要準備的是,一個  Linux 或者  macOS 系統,Python 3,以及 NVIDIA 的 GPU+CUDA cuDNN

GitHub 頁面傳送門:

https://github.com/NVIDIA/vid2vid

(本文經合作夥伴 量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈真实到可怕!英伟达 MIT 造出马良的神笔 〉)

延伸閱讀

NVIDIA 發布搭載「圖靈架構」新顯卡,專為光影追蹤設計最高要價 30 萬台幣
馬斯克不用 NVIDIA 的晶片了!特斯拉開發出自有「人工智慧晶片」全面提升自駕車性能
核彈教父變身「AI 教父」,黃仁勳將和英偉達帶來撼動科技界的大浪潮!


我們正在找夥伴!

2019 年我們的團隊正在大舉擴張,需要你的加入跟我們一起找出台灣創新原動力! 我們正在徵 《採訪社群編輯》、《助理編輯》,詳細職缺與應徵辦法 請點我

點關鍵字看更多相關文章: