【我們為什麼挑選這篇文章】

大家都知道 AI 的能力已經很強大了,但是那都是單項的聽、讀或識別「能力」,但這項能力可不可以轉換成更深的「理解」,就需要靠整合。Google 和 MIT 就在增進人工智慧的統合能力,讓 AI 更聰明。

(責任編輯:謝秉芸)

從單項能力來說,現在的 AI 已經很先進了,比如說 AI 能識別我們說的話,照片裡面的對象,下棋能勝過人類冠軍等等。但是就像交互設計之父 Alen Cooper 所說那樣,計算機能識別你說的話,但它可能不懂你的意思。為什麼?上下文語境、背景等訊息對於理解意思和意義是非常重要的。如果我們希望未來的機器人執行我們的命令的話,就必須讓它們能徹底理解周圍的世界——如果機器人聽見了狗叫,它要知道是什麼導致了狗發出叫聲,那條狗是長什麼樣的,以及它想要什麼。

過去的 AI 研究注重的是單項突破(感知世界和執行任務方面)。可以想像一下,如果你一次只能使用一種感覺,不能管將你聽到的東西跟看到的東西進行匹配的話會是什麼感覺?這個就是 AI 的現狀。但是要解決深層次的問題,就需要將這些單項的成功進行統合。幸運的是,目前 MIT 和 Google 的研究人員已經在開展這方面的探索。這兩家機構最近發表了相關論文,解釋了其在協調 AI 進行看、聽和讀方面的初步研究,這些成果有望顛覆我們教機器了解世界的辦法。

MIT 的 AI 博士後 Yusuf Aytar 是論文的聯合作者之一,他說:「你是看到了汽車還是聽見了引擎並沒有關係,你馬上就能識別出這是同一個概念。你大腦中的訊息已經自然地把它們協調統一起來了。

MIT 訓練 AI 將圖像、聲音和文字匹配起來

協調正是研究的關鍵。研究人員並沒有教算法任何新東西,而是建立了一種方式讓算法將一種感覺獲得的知識與另一種進行連接或協調。Aytar 舉了一個無人車的例子,比方說無人車的聲音傳感器可能會先聽到救護車的響聲,然後激光雷達才看到救護車(視線受阻)。有關救護車的鳴叫聲、樣子以及職能的知識可以讓無人車放慢速度,切換車道,給這輛車騰出地方。

為了訓練這套系統,MIT 的研究小組首先給神經網路展示了與音頻相關的頻率。在神經網路發現了視頻中的對象並且識別出特別的音頻之後,AI 就會嘗試預測哪一個對象跟聲音關聯。比方說,招手會不會發出聲音呢?

接下來,研究人員把帶有標題的類似情況下的圖像提供給同一個算法,這樣它就能夠將文字與對象和圖中的動作關聯起來。想法跟前面一樣:首先網路會單獨識別出圖中所有的對像以及相關問題,然後進行匹配。

乍看之下這種網路似乎沒什麼了不起,因為 AI 獨立識別聲音、圖像、文字的能力已經很了不起了。但當我們對 AI 進行聲音/圖像、圖像/文字的配對訓練時,系統就能在未經訓練指導哪個單詞與不同聲音匹配的情況下將聲音與文字關聯起來。研究人員宣稱,這表明神經網路對於所看到的、聽到的或者讀到的東西已經形成了一種更加客觀的看法,而這種看法的形成並不是完全依賴於它用來了解這一訊息的媒介的。

能夠統合對象的觀感、聽覺以及文字的算法可以自動將自己聽到的東西轉化成看到的東西。比方說,算法聽到斑馬在叫的時候,它會假設斑馬的樣子類似於馬(在不知道斑馬樣子的情況下):

它會知道斑馬是一頭動物,它會知道這頭動物會發出這類的聲音,並且自然地將這一訊息在不同形態間做轉化。

這類假設使得算法會在想法之間建立新的連接,強化了算法對世界的理解。

Google用一種深度學習模型來處理多領域的任務。圖中紅色是語言類任務,藍色為分類任務。

Google 也進行了類似的研究,不過 Google 更強一點的是它還能夠將文字轉化成其他的媒體形式。但是從準確率來說這些技術還比不上單用途的算法。不過 Aytar 的看法很樂觀,他覺得這種情況不會持續太久:

如果你有了更多感覺的話,準確率就會更高。

(本文經合作夥伴 36 氪授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為〈MIT 和 Google 讓 AI 具備感官統合能力,可將看到聽到讀到的東西關聯起來〉。)

延伸閱讀

百度宣布 All-in 人工智慧:「為了偉大中國的復興,我們必須全力發展 AI」
如果其他國家是獅子,台灣應當 AI 產業中多得數不清的螞蟻——台科大教授盧希鵬談人工智慧發展
台灣的 AI 生路在哪?簡立峰:「立基點在 IC 設計整合人工智慧服務」