用心理學優化 AI!以「膠囊網路」推翻 CNN 的 AI 教父再提出全新深度學習架構

【我們為什麼挑選這篇文章】被稱為「AI 教父」的 Geoff Hinton 早在 1986 年當大家不看好神經網路的時代,便提出「藉由反向傳播來訓練深度學習的理論」,奠定現代人工智慧的發展根基。總是引領潮流的他,在 2017 年高喊 「卷積神經網絡(CNN)的時代已經過去」提出「Capsule Networks(膠囊網路)」理論推翻自己過去的研究,近期他又導入心理學概念將膠囊網路「再進化」,正在進行 AI 研究的專家們不妨一同了解此一新概念。  (責任編輯:何泰霖)

本文經 AI 新媒體量子位(公眾號 ID:QbitAI)授權轉載,轉載請連繫出處
作者:量子位

你還記得「AI 教父」 Geoff Hinton 在 2017 年挖的坑嗎?

膠囊網路的坑還沒填完,最近他又挖了一個新的坑。

近日 Hinton 提出了一個稱為 GLOM 的假想系統,將一篇 44 頁的文章發佈在 arXiv 上——只有 idea 、沒有實驗,卻引起 AI 界的廣泛討論。

更準確地說,GLOM 並不完全是一個新的坑,而是在膠囊網路的坑裡繼續挖深。 GLOM 綜合這些年 AI 領域的諸多成果,將 Transformer、神經場域(neural field)、對比表示學習、蒸餾等技術與膠囊網路。

為了解決膠囊網路的缺陷, Hinton 這幾年來一直關注著電腦視覺領域的最新進展,希望用 CV 新理論中有價值的部分去改進它。

為何「膠囊網路」需要改進?

當初, Hinton 根據人類對圖像的認知方法,提出了膠囊網路,用於改進 CNN。
CNN 過去是電腦視覺中的主力,但 CNN 有很多缺點,比如它無法理解部分與整體之間的關係。

比如將人臉五官打亂, CNN 仍然會因為識別到不同元素,而將它視為人臉。而且 CNN 也很難從不同視角去理解同一個物體。 Hinton 認為,神經網路應該使用識別局部的「膠囊」,而不是使用總結全局特徵的單一純量輸出「神經元」。

經過全球學術界 3 年多的努力,膠囊網路取得了一些成功,主要是在小型數據集的監督式和非監督式學習中,但是還沒有成功擴展到更大的數據集上。

Hinton 反思了膠囊網路的缺點,提出了 GLOM 。 GLOM 借鑒了心理學的研究成果,即人類識別圖像的方法是將場景拆解為整體與部分的層次結構,並且對它們的空間關係進行建模。

深度學習新概念 GLOM 的設計思路

GLOM 的體系結構如下圖所示。圖中列出了 L 層級與另外兩個相鄰層級之間由下而上,以及從上到下和相同層級之間的交互關係。

其中,由下而上的藍色箭頭和從上到下的紅色箭頭,是由幾個隱藏層的兩個不同的神經網路實現的。

這些網路在不同層級之間可以有所不同,但是它們可以在列之間和跨時間共享。

對於靜態圖像而言,綠色箭頭可以簡單地按比例縮放殘差連接,實現每個層級嵌入的時間平滑。對於影片,綠色箭頭可以是神經網路,基於膠囊多個先前的狀態來學習時間動態。在下面六組不同最低​​層級的嵌入中,它們都指向同一個目標,且在場景級別的嵌入未知。

圖中所示,各個層級上相同向量的孤島表示一棵解析樹。但是,特徵孤島比短語結構語法還要強大得多。

在 GLOM 中,場景從上到下的神經網路,將場景向量和圖像位置轉換為該位置的目標向量。該向量包括相關目標相對於相機的 3D 姿態訊息,以及同一目標的所有位置都被賦予完全相同的目標向量。

然後,神經網路將目標級向量加上一個位置,轉換為適合該位置的部分向量,往下以此類推。這樣,作用在完全相同人臉向量上從上而下的網路,能夠預測某些位置的鼻子向量和其他位置的嘴巴向量。

GLOM 相比傳統的 CV 方法有哪些優點?

Hinton 認為,與膠囊網路相比, GLOM 的主要優勢是,它避免在每個層級將神經元預先分配給一組離散的部分需求。此外, GLOM 還有不需要動態路由的優點,相較膠囊模型在形成島的聚類過程好得多。

與 Transformer 相比, GLOM 每層的權重都相同,透過在一定程度上使用嵌入向量作為查詢、鍵值,大大簡化了注意力機制。

在 GLOM 中,原本 Transformer 的多頭被重新設計為用於實現部分整體結構的多個層級,並且多頭之間的交互高度結構化,某個層級僅與相鄰層級進行交互作用。

網友怎麼看?

對於這篇 44 頁僅提供 idea 的論文,不同網友表現出了完全相反的看法。一些實用派認為,論文沒有實驗,甚至都沒有描述完整可運行的系統,看到開頭聲明就被勸退了。

也有人認為,能看到頂尖科學家以這種形式表達自己的想法很好,可以深入了解他們的思維過程。最重要的是, Hinton 的關注,可能會加快這個問題的解決,研究人員也會從中受到啟發。

最後,來自 ETHZ 的 Yannic Kilcher 博士已經在 B 站上傳了對 GLOM 的詳細解讀,影片長度超過 1 小時,有興趣的朋友不妨去看看。

最後附上《論文傳送門

(本文經 AI 新媒體量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈Hinton 再挖新坑:改進膠囊網絡,融合 Transformer 神經場等研究 〉。)

你可能會有興趣

【沒人信我時,還有你】「AI 教父」Hinton 與深度學習 40 年的奇幻旅程
【什麼通靈之術都放馬過來】印度工程師學一年深度學習,秒開發火影結印 AI 辨識系統!
【工程師快存起來】柏克萊推線上深度學習課程,14 週精通最新理論應用


點關鍵字看更多相關文章: