李飛飛大神演講全紀錄:讓 AI 描述圖片準確率達 70%,Google 演算技術如何做到?

【我們為什麼挑選這篇文章】  Google 的人工智慧最新發展為何?李飛飛難得公開演講,談及 AI 趨勢與技術,給出了非常精闢的說明。這篇文章不只詳細紀錄演講過程,也將李飛飛的精彩簡報完整呈現。(責任編輯:劉庭瑋)

雷鋒網(公眾號:雷鋒網) AI 科技評論報導:中國計算機學會 CCF 舉辦的中國計算機大會 CNCC 2017 已於 10 月 26 日在福州市海峽國際會展中心開幕。參加會議的人數眾多,主會場座無虛席。雷鋒網 AI 科技評論也派出記者團全程參與大會報導。

26日上午開幕式結束後,多位特邀嘉賓進行了現場演講,主題涵蓋計算機科學發展中的新技術和應用、自然語言利淨額、AI 如何服務於人、人工智能在訊息平台的應用等等。史丹佛大學副教授、谷歌云首席科學家、機器學習界的標杆人物之一的李飛飛進行了題目為「Visual Intelligence: Beyond ImageNet」的演講。

李飛飛首先介紹了視覺對生物的重要性,以及計算機視覺在物體識別任務中的飛速發展。然後繼續與大家討論了計算機視覺的下一步目標:豐富場景理解,以及計算機視覺與語言結合和任務驅動的計算機視覺的進展和前景。場景理解和與語言結合的計算機視覺進一步搭起了人類和計算機之間溝通的橋樑,任務驅動的計算機視覺也會在機器人領域大放異彩。李飛飛介紹的自己團隊的工作也豐富多樣、令人振奮。

李飛飛首先介紹了構建視覺智能中的第一個里程碑,那就是物體識別。人類具有無與倫比的視覺識別能力,認知神經科學家們的許多研究都展示出了這一現象。李飛飛在現場與聽眾們做了一個小互動,在螢幕上閃過一系列持續時間只有 0.1 秒的照片,不加任何別的說明,而觀眾們還是能夠識別到有一張中有一個人。

MIT 教授 Simon Thorpe 在1996年的一個實驗中,也通過記錄腦波的方式表明,人類只需要觀察一張復雜照片150ms的時間,就能辨別出其中是否包含動物,不管是哺乳動物、鳥類、魚,還是蟲子。

這種對複雜物體的快速視覺識別能力是人類視覺系統的基本特質,而這也是計算機視覺中的「聖杯」。在過去的20年中,物體識別都是計算機視覺社區研究的重要任務。 ImageNet 就是起到了貢獻的數據集之一。

從 2010 年以來,從 2010 到 2017,ImageNet 挑戰賽的物體識別錯誤率下降到了原來的十分之一。到 2015 年,錯誤率已經達到甚至低於人類水平。這基本表明計算機視覺已經基本攻克了簡單的物體識別問題。

計算機視覺研究當然不會止步於 ImageNet 和物體識別,這僅僅是人類豐富視覺感受的基礎。

下一個關鍵步驟就是視覺關係的識別。這項任務的定義是:「把一張照片輸入算法模型中,希望算法可以識別出其中的重點物體,找到它們的所在位置,並且找到它們之間的兩兩關係」。

兩張照片都是人和羊駝,但是發生的事情完全不同。這就是單純的物體識別所無法描述的了。

在深度學習時代之前,這方面也有不少的研究,但多數都只能在人為控制的空間中分析空間關係、動作關係、類似關係等寥寥幾種關係。隨著計算力和數據量的爆發,在深度學習時代研究者們終於能夠做出大的進展。這需要卷積神經網絡的視覺表徵和語言模型的結合。

在李飛飛團隊 ECCV2016 的收錄論文中,他們的模型已經可以預測空間關係、比較關係、語義關係、動作關係和位置關係,在「列出所有物體」之外,向著場景內的物體的豐富關係理解邁出了堅實的一步。

除了關係預測之外,還可以做無樣本學習。舉個例子,用人坐在椅子上的照片訓練模型,加上用消防栓在地上的圖片訓練模型。然後再拿出另一張圖片,一個人坐在消防栓上。雖然算法沒見過這張圖片,但能夠表達出這是「一個人坐在消防栓上」。

類似的,算法能識別出「一匹馬戴著帽子」,雖然訓練集裡只有「人騎馬」以及「人戴著帽子」的圖片。

在李飛飛團隊的 ECCV 2016 論文之後,今年有一大堆相關論文發表了出來,一些甚至已經超過了他們模型的表現。她也非常欣喜看到這項任務相關研究的繁榮發展。

在物體識別問題已經很大程度上解決以後,李飛飛的下一個目標是走出物體本身。微軟的 Coco 數據集就已經不再是圖像+標籤,而是圖像+一個簡短的句子描述圖像中的主要內容。

經過三年的準備後,李飛飛團隊推出了 Visual Genome 數據集,包含了 10 萬張圖像、420 萬條圖像描述、180 萬個問答對、140 萬個帶標籤的物體、150 萬條關係以及 170 萬條屬性。這是一個非常豐富的數據集,它的目標就是走出物體本身,關注更為廣泛的對象之間的關係、語言、推理等等。

在 Visual Genome 數據集之後,李飛飛團隊做的另一項研究是重新認識場景識別。

場景識別單獨來看是一項簡單的任務,在谷歌裡搜尋「穿西裝的男人」或者「可愛的小狗」,都能直接得到理想的結果。

但是當你搜尋「穿西裝的男人抱著可愛的小狗」的時候,就得不到什麼好結果。它的表現在這裡就變得糟糕了,這種物體間的關係是一件很難處理的事情。

如果只關注了「長椅」和「人」的物體識別,就得不到「人坐在長椅上」的關係;即便訓練網絡識別「坐著的人」,也無法保證看清全局。

他們有個想法是,把物體之外、場景之內的關係全都包含進來,然後再想辦法提取精確的關係。

如果有一張場景圖(graph),其中包含了場景內各種複雜的語義信息,那場景識別就能做得好得多。其中的細節可能難以全部用一個長句子描述,但是把一個長句子變成一個場景圖之後,我們就可以用圖相關的方法把它和圖像做對比;場景圖也可以編碼為數據庫的一部分,從數據庫的角度進行查詢。

李飛飛團隊已經用場景圖匹配技術在包含了許多語義信息的場景裡得到了許多不錯的量化結果。不過,這些場景圖是誰來定義的呢?在 Visual Genome 數據集中,場景圖都是人工定義的,裡面的實體、結構、實體間的關係和到圖像的匹配都是李飛飛團隊人工完成的,過程挺痛苦的,他們也不希望以後還要對每一個場景都做這樣的工作。所以在這項工作之後,他們也正在把注意力轉向自動場景圖生成。

比如這項她和她的學生們共同完成的 CVPR2017 論文就是一個自動生成場景圖的方案,對於一張輸入圖像,首先得到物體識別的備選結果,然後用圖推理算法得到實體和實體之間的關係等等;這個過程都是自動完成的。

這裡涉及到了一些迭代信息傳遞算法,李飛飛並沒有詳細解釋。但這個結果體現出的是,這個模型的工作方式和人的做法已經有不少相似之處了。

這代表著一組全新的可能性來到了人類面前。借助場景圖,們可以做訊息提取、可以做關係預測、可以理解對應關係等等。

QA 問題也得到了更好的解決。

還有一個研究目標是,給圖片配上整段的說明文字。

當李飛飛在加州理工學院讀博士的時候做過一個實驗,就讓人們觀察一張照片,然後讓他們盡可能地說出自己在照片中看到的東西。當時做實驗的時候,在受試者面前的屏幕上快速閃過一張照片,然後用一個別的圖像、牆紙一樣的圖像蓋住它,它的作用是把他們視網膜暫留的訊息清除掉。

接下來就讓他們盡可能多地寫下自己看到的東西。從結果上看,有的照片好像比較容易,但是其實只是因為我們選擇了不同長短的展示時間,最短的照片只顯示了 27 毫秒,這已經達到了當時顯示器的顯示速度上限;有些照片顯示了 0.5 秒的時間,對人類視覺理解來說可算是綽綽有餘了。

對於這張照片,時間很短的時候看清的內容也很有限,500 毫秒的時候他們就能寫下很長一段。進化給了我們這樣的能力,只看到一張圖片就可以講出一個很長的故事。

在過去的 3 年裡,CV 領域的研究人員們就在研究如何把圖像中的訊息變成故事。

他們首先研究了圖像說明,比如借助 CNN 把圖像中的內容表示到特徵空間,然後用 LSTM 這樣的 RNN 生成一系列文字。這類工作在 2015 年左右有很多成果,從此之後我們就可以讓計算機給幾乎任何東西配上一個句子。

比如這兩個例子,「一位穿著橙色馬甲的工人正在鋪路」和「穿著黑色襯衫的男人正在彈吉他」。

這都是 CVPR2015 上的成果。兩年過去了,李飛飛團隊的算法也已經不是最先進的了,不過那時候確實是是圖像說明這個領域的開拓性工作之一。

沿著這個方向繼續做研究,他們迎來的下一個成果是稠密說明,就是在一幅圖片中有很多個區域都會分配注意力,這樣有可以有很多個不同的句子描述不同的區域,而不僅僅是用一個句子描述整個場景。在這裡就用到了 CNN 模型和邏輯區域檢測模型的結合,再加上一個語言模型,這樣就可以對場景做稠密的標註。

比如這張圖裡就可以生成,「有兩個人坐在椅子上」、「有一頭大象」、「有一棵樹」等等。

另一張李飛飛的學生們的室內照片也標出了豐富的內容。

在最近的 CVPR2017 的研究中,他們讓表現邁上了一個新的台階,不只是簡單的說明句子,還要生成文字段落,把它們以具有空間意義的方式連接起來。這樣我們就可以寫出「一隻長頸鹿站在樹邊,在它的右邊有一個有葉子的桿子,在籬笆的後面有一個黑色和白色的磚壘起來的建築」,等等。雖然裡面有錯誤,而且也遠比不上莎士比亞的作品,但我們已經邁出了視覺和語言結合的第一步。

而且,視覺和語言的結合併沒有停留在靜止的圖像上,剛才的只是最新成果之一。在另外的研究中,他們把視頻和語言結合起來。

比如這個 CVPR2017 的研究,可以對一個說明性視頻中不同的部分做聯合推理、整理出文本結構。這裡的難點是解析文本中的實體,比如第一步是「攪拌蔬菜」,然後「拿出混合物」。如果算法能夠解析出「混合物」指的是前一步裡混合的蔬菜,那就棒極了。

在語言之後,李飛飛還介紹了任務驅動的視覺問題。對整個 AI 研究大家庭來說,任務驅動的 AI 是一個共同的長期夢想,從一開始人類就希望用語言給機器人下達指定,然後機器人用視覺方法觀察世界、理解並完成任務。

這是一個經典的任務驅動問題,人類說:「藍色的金字塔很好。我喜歡不是紅色的立方體,但是我也不喜歡任何一個墊著 5 面體的東西。那我喜歡那個灰色的盒子嗎? 」那麼機器,或者機器人,或者智能體就會回答:「不,因為它墊著一個5面體」。它就是任務驅動的,對這個複雜的世界做理解和推理。

李飛飛團隊和 Facebook 合作重新研究這類問題,創造了帶有各種幾何體的場景,然後給人工智能提問,看它會如何理解、推理、解決這些問題。這其中會涉及到屬性的辨別、計數、對比、空間關係等等。

在這方面的第一篇論文用了 CNN+LSTM+注意力模型,結果算不上差,人類能達到超過 90% 的正確率,機器雖然能做到接近 70%了,但是仍然有巨大的差距。有這個差距就是因為人類能夠組合推理,機器則做不到。

而在 ICCV 上,他們介紹了新一篇論文中的成果。借助新的 CLEVR 數據集,把一個問題分解成帶有功能的程序段,然後在程序段基礎上訓練一個能回答問題的執行引擎。這個方案在嘗試推理真實世界問題的時候就具有高得多的組合能力。

在測試中也終於超出了人類的表現。

模型的實際表現當然不錯。比如這個例子裡,我們提問某種顏色的東西是什麼形狀的,它就會回答「是一個立方體」這樣,表明了它的推理是正確的。它還可以數出東西的數目。這都體現出了算法可以對場景做推理。熱力圖也展示出了模型正確地關注了圖中的區域。

圖像相關的任務說了這麼多,李飛飛把它們總結為了兩大類

  • 首先是除了物體識別之外的關係識別、複雜語意表徵、場景圖;
  • 在場景 gist 之外,我們需要用視覺+語言處理單句標註、段落生成、視頻理解、聯合推理;李飛飛最後展示了她女兒的照片,她只有 20 個月大,但視覺能力也是她的日常生活裡重要的一部分,讀書、畫畫、觀察情感等等,這些重大的進步都是這個領域未來的研究目標。

視覺智慧是理解、交流、合作、交互等等的關鍵一步,人類在這方面的探索也只稱得上是剛剛開始。

(本文經合作夥伴 雷鋒網  授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈李飛飛最新演講:視覺智慧是人類和計算機合作溝通的橋樑| CNCC2017
 〉。)

延伸閱讀

NVIDIA 成為推動台灣 AI 革命推手!攜手科技部,4 年培育 3000 位人工智慧專家CPU 與 GPU 到底差在哪?NVIDIA 找來流言終結者主持人 Demo 讓你瞬間搞懂
 照片挑對了,旅客當然立刻下訂!旅遊巨頭 Expedia 攜手 NVIDIA 用 AI 挑出最能打動你的飯店照片
全球 AI 晶片爭霸戰來了!Nvidia、Intel、Google、IBM、微軟 AI 晶片特色一次報你知
【擺脫轉型不成的困境】Intel 追趕 NVIDIA,推出運算速度快十倍的 VPU 超級晶片

AD