【這人生根本開掛】大二開始修博士課、21 歲獲「CVPR 最佳論文」提名,學霸這樣做研究

【我們為什麼挑選這篇文章】電腦視覺與圖形識別會議(Conference on Computer Vision and Pattern Recognition,CVPR)是該領域中指標性的年度研究大會,在全球大量論文投稿中,入圍的機會不到三成,口頭發表的機會也小於 5%,而在今年的大會上,獲得最佳論文提名的,是個以「視覺手性」為主題、年僅 21 歲的康乃爾大學研究員,一起來看看他的實驗吧!(責任編輯:賴佩萱)

本文經 AI 新媒體量子位(公眾號 ID:QbitAI)授權轉載,轉載請連繫出處

作者:量子位

在訓練神經網路的時候,經常會出現「缺數據」的情況。這時候,就需要「數據增強」來獲取更多數據。而近幾年,鏡像反轉成了最常用的方法之一。

轉一次,就能獲得 2 倍數據,真香!

然而,事情卻沒有想像中的那麼簡單——當翻轉了數據集裡所有的圖片時,神經網路所擬合的函數,還能代表原先的圖像分佈嗎?

利用「卷積神經網路」發現「視覺手性」

針對這一問題,來自康乃爾大學的研究員,首次挑戰了常規神經網路訓練中,圖片「翻轉不變性」(flip-invariant)的這一假設。研究的題目叫做視覺手性(Visual Chirality),並在 CVPR 2020 中獲得了最佳論文提名。

註:手性的定義為「一個物體無法與其鏡像相重合」;「視覺手性」一詞來自手性,意指「電腦視覺領域中圖像分佈與其鏡像分佈的區別」。

而該研究的一作,是此屆 CVPR 大會上年紀最小的獲獎者,年僅 21 歲的華人科研新秀——林之秋。

這項研究在多種領域(人臉、網路圖片、數字處理圖像)上利用卷積神經網路,發現了許多常人難以捕捉的「視覺手性」線索,且透過自監督訓練,在多項數據集上達到了 60%,甚至到 90% 的精度。

「鏡像翻轉」是一個有效的數據增強方法

為了理解這一鏡像翻轉話題,我們先來看下這樣的一個例子:

在上面這張圖中,你能判斷出哪些圖像被翻轉了嗎?答案如下:

圖一:鏡像翻轉(線索:文字)。我們可以很容易看出來文字被翻轉過了。
圖二:沒有翻轉(線索:鈕扣)。男士襯衫的鈕扣一般位於身體右側。
圖三:鏡像翻轉(線索:吉他)。吉他手的主手應當在吉他右側。

鏡像翻轉對於人類而言並沒有太大的區別(如圖二和圖三),因此難以判斷。然而, 神經網路卻可以通過自監督訓練的方法在這個任務上達到非常高的精度,並能指出圖片中哪些區域可以被用於識別鏡像翻轉

手性代表著單張圖片的翻轉不對稱性,而視覺手性(Visual Chirality)則是針對圖像分佈所定義的翻轉不對稱性。

當一個圖像分佈具備視覺手性時,使用鏡像翻轉作為數據增強方法,將不可避免的會改變一個數據集所代表的分佈。換句話說, 只有當一個圖像分佈不具備視覺手性的時候,才能在不改變原先圖像分佈的前提下,使用鏡像翻轉來增強數據集

視覺手性是大部分視覺領域都擁有的屬性。正如此篇文章作者,Google AI 科學家 Noah Snavely 教授所說:在電腦視覺的研究中,我們常把這個世界視為「翻轉不變」的,鏡像翻轉因而是一個常規的數據增強方法。

然而,當你翻轉圖片後,文字將被顛倒,左手變為右手,而螺旋義大利麵也將朝相反方向旋轉。那麼,這項研究又是如何挑戰了,人們先前在電腦視覺中,對於「翻轉不變性」假設的呢?

神經網路的訓練過程

這項研究利用了「自監督學習」方法來訓練卷積神經網路。

對於任何一個數據集,只需要將其原有的圖片標記為「無翻轉」,並將鏡像翻轉過的圖片標記為「有翻轉」,就可以訓練神經網路識別鏡像翻轉這個二分類任務(binary classification)。

同時,可以根據神經網路在驗證集的表現,來評估這一圖像分佈是否具備視覺手性:如果驗證集上的精度大於 50%,便有充足的證據來證明視覺手性的存在。

這項研究利用了 ResNet-50 作為基本的網路結構,並使用 SGD 方法來訓練網路。為了了解神經網路學到了哪些視覺手性線索,研究人員利用了類激活映射(CAM:Class Activation Map)方法,在原有圖片上對於視覺手性敏感的區域進行了高亮。

同時因為能造成視覺手性的現象有很多,研究人員還推出了一個簡單的基於類激活映射的聚類方法—— 手性特徵聚類(Chiral Feature Clustering)。

在網路圖片集上,神經網路在鏡像翻轉識別上取得了高達 60%-80% 的精度。

研究人員在 Instagram 圖片集上進行了手性特徵聚類,並挑選了一系列與人們生活相關的典型視覺手性現象進行討論。

  1. 手機:對著鏡子自拍是人們最愛做的事。此類照片具有視覺手性,因為手機的攝像頭一般固定在手機背面的一側(因品牌而異),同時由於多數人是右撇子,一般都以右手持手機進行自拍。
  2. 吉他:幾乎大多數的吉他手都以右手撥弦,左手持把。
  3. 手錶:手錶一般都被帶在人們的右手側。

針對人臉數據做個別訓練

為了深入了解人臉的視覺手性現象,研究人員在人臉數據集上進行了孤立訓練。

在 Flickr-Faces-HQ(FFHQ)人臉數據集上進行了訓練,並在測試集上取得了高達 81% 的精度,還利用手性特徵聚類對人臉中的視覺手性現象進行了初步的探討:

  1. 瀏海分界處:人們一般用右手來分理瀏海,這會導致瀏海的朝向向一側偏移,並出現視覺手性現象。
  2. 眼睛:人們在看向物體時傾向於用一隻主視眼進行瞄準,這樣會導致人們的目光在進行拍攝時出現偏移;多數人的主視眼為右眼,而這一現象可能是導致視覺手性現象的成因。
  3. 鬍子:與頭髮一樣,可能與人們習慣於用右手理鬍子有關。

文中對以上的視覺手性現象的討論均為初步的分析,而人臉中任有大量的視覺手性線索值得被發掘。

研究過程的意外發現

除此之外,研究人員還對數字圖像處理過程(例如去馬賽克和圖片壓縮)中產生的視覺手性現象進行了分析。

舉個例子,當研究人員首次利用神經網路,在 Instagram 數據集上進行自監督訓練時,發現沒有使用隨機剪裁(random cropping)的神經網路。

但在部分圖片上,類激活映射所得到的熱圖更著重關注圖片的邊緣部分,如下圖所示:

而在使用隨機剪裁後,研究人員得到的新的熱圖,則更關注來自於圖片中物體本身的線索。

研究人員提出: 當數字圖像處理過程和鏡像翻轉不具備「交換律」時,視覺手性將會憑空產生在一個圖像分佈上

作者通過概率論與群論(group theory),對此假設進行了嚴謹的數學論證,並透過神經網路實驗驗證了這一現象在網路圖片中廣泛存在,而此類線索往往肉眼不可見,但卻在圖片中存在固定的模式,因而為圖像識偽的應用創造了可能性。

超級神童兼學霸,前途無量啊!

這項研究的第一作者,是 1998 年生的華人科學新秀——林之秋。

林之秋 17 歲便考入美國「常春藤」盟校——康奈爾大學,而這也是他「開掛人生」的開始。

林之秋僅用兩年時間就全部修完電腦和數學兩個專業的本科課程,並從大二開始選修博士課程,同時跟隨電腦系的教授從事科研工作。他在多項專業課上,例如多元微積分、線性代數、高等抽象代數、人工智慧、電腦操作系統等都取得過第一名。

由於成績極為優異,自大二起林之秋就接受電腦系邀請,以助教身份給高年級同學講課,為康乃爾科技學院編寫碩士生的預修課程,甚至在高階機器學習課上給博士生的試卷打分數。

而這篇「CVPR 2020 最佳論文提名」的研究,是林之秋從大二就開始著手準備的項目,這也顯示了他「超級大學霸」的真實實力。

如今,本科畢業的林之秋,總成績在學院數千名學生中名列前三,並受院長邀請在畢業典禮上代表學院舉旗。之後,他即將前往卡內基梅隆機器人學院,攻讀電腦視覺博士學位。

在此,也預祝林之秋同學,能夠在科研的道路上,繼續乘風破浪!

(本文經 AI 新媒體量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈21 歲華人本科生,憑什麼拿下 CVPR 2020 最佳論文提名?〉。)

你可能會有興趣


科技報橘 LinkedIn 上線!

最新科技產業動態、技術新突破、專業職能技巧提升 ....... 鎖定 TO  LinkedIn 專業品牌,提升職能與產業 Know-how,躋身產業菁英之列 https://www.linkedin.com/showcase/techorange

點關鍵字看更多相關文章: