來自 Google 的 DeepMind 團隊最近再次登上媒體版面,因為他們成功的利用神經網路,達成了將平面圖面還原為立體場景的技術。
神經網路「想像」出各角度場景,合成 3D 模組
DeepMind 的部落格上近日發表了相關的資訊,根據他們表示,一般人類在理解一個立體場景時,我們的大腦會調用過去所看到的類似經驗,自行「想像」我們沒有看到的地方,並且在腦中補完整個「場景」應該要有的物件。
文中並舉例,像是人類看到一張圖片中,桌子只有三隻腳,但會自動「腦補」出第四隻腳,並且認為它只是被其他桌腳擋住;同樣的道理運用到一張只有部分房間模樣的圖片,人類就能套過腦補的方式想像出整個房間該有的樣子。
但是,這樣在我們人類理解中很簡單的事情,對於人工智慧而言卻是不容易的事情,因為在現階段的技術下,AI 必須靠大量經過標記的物件圖片,才有可能重建一個 3D 場景,所需耗費的時間非常的久,也較難以有實用的發展。
GQN 技術,機器自主學習,效率倍增
有鑑於此,DeepMind 團隊導入了 GQN(Generative Query Network)神經網路技術,透過將物件輸入到「代表網路(Representation Network)」中形成 3D 虛擬物件,並讓「生成網路(Generation Network)」進到其中,學習一個物件從各個角度中看起來應該會是如何,省去過去大量的標記學習。
相關的技術雖然在目前的發展上還有條件限制,例如說只能先用在虛擬物件上,但是 DeepMind 團隊對於這套技術很有信心,預期在未來導入高畫質照片,甚至是加入時間因素,讓 AI 可以生成物理運動狀態,借以製作動態模型。
─ ─
參考資料來源:
DeepMind:Neural scene representation and rendering
INSIDE:VR 普及化曙光!AI 把 2D 畫面變 3D 全景,DeepMind 再登《科學》期刊
Qooah:DeepMind 的 AI 已經可以理解空間概念如像人有視覺
(本文提供合作夥伴轉載,首圖來源:DeepMind 官方部落格網站。)
DeepMind 近一年的 AI 發展不是用飛的,根本是用射的
不過半年 AlphaGo 已經像古董了:DeepMind 最新 AI,一天訓練就能稱霸東西方三種棋類!
Deepmind 團隊最新力作:不需人類的 AlphaGo Zero,左右互搏練成 AI 版周伯通
Deepmind 打造語音生成模型 WaveNet,比傳統音檔生成速度快 1000 倍,聲音更擬真?
Deepmind 最新論文:神經網絡技術模擬「人腦海馬體」,AI 預測能力準度更高、成本更低了!
【人工智慧大躍進】AI 就快學會舉一反三!DeepMind:急需神經科學家幫忙