【從智障變天才】機器學習發展簡史:只花三年錯誤率比人類更低

【我們為什麼挑選這篇文章】  可能很多人對於「深度學習」或「人工智慧」耳熟能詳卻不甚了解,而陌生感就會帶來許多對於科技發展的不信任感!而這篇「深度學習」的介紹文著重在三年內每個階段的研究成果,然後做出介紹,跳過數學理論和生硬述詞的解釋,讀來簡單易懂!(責任編輯:劉庭瑋)

【深度學習】這個幾年前還鮮為人知的術語,近期迅速躥紅,成為人盡皆知的大 IP。不過在火起來之前,這個技術已經發展了十幾年。人盡皆知前,深度學習是如何一步一步自我演化並走進公眾視野的?

1998 年,Yann LeCun 發表 Gradient-Based Learning Applied to Document Recognition,至今,深度學習已經發展了十幾年了。以大家熟知的 CNNs 為代表的技術在近幾年內取得了跨越式的發展,但理解深度學習的技術細節往往需要深入的數理知識,導致我們對於深度學習的理解一直停留在較淺的程度。本文就將帶你回顧深度學習近些年來的里程碑式成果,就算看不懂技術細節,也可以一睹深度學習的前世今生。

2012 年 -AlexNet

AlexNet 的結構圖(圖片來自於論文:《基於 ImageNet 圖像識別的深度卷積神經網絡》)

這篇文章被稱為深度學習的開山之作。當然,也有很多人堅稱 Yann LeCun 1998 年發表的 Gradient-Based Learning Applied to Document Recognition 才是開山之作,即便這樣, 這篇文章使得深度學習進入主流科學界的視野也是毋庸置疑的。事實上,有人的地方就有江湖,這種爭論與當年牛頓和萊布尼茨爭論微積分的發明權一樣都無損於我們作為學習者領略這些成果美妙的思想和燦爛的智慧,這篇文章的作者 Alex Krizhevsky, Ilya Sutskever, 和 Geoffrey E. Hinton 同 Yann Lecun 都是最傑出的學者。

特點:

• 在結構上,AlexNet 由 8 層神經網絡組成:其中有 5 層卷積層和 3 層全連接層(相比較現在的神經網絡,這真是太簡單了,但即便是這樣,它也足以用來分類 1000 類圖片了)。

• AlexNet 使用 ReLU 作為非線性函數,而不是此前一直廣泛使用的常規 tanh 函數。

• AlexNet 還首次提出了使用 Dropout Layers(降層)和 Data Augmentation(數據增強)來解決過度匹配的問題,對於誤差率的降低至關重要。

• 這篇文章之所名留青史與其在應用方面的優異表現分不開(時間果然是檢驗真理的唯一標準啊),AlexNet 贏得了 2012 年的 ILSVRC(ImageNet 大規模視覺識別挑戰賽),誤差率為 15.4%。甩了當時的第二名十條大街(26.2%)。

論文:《基於 ImageNet 圖像識別的深度卷積神經網絡》- Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton

2013 年-ZF Net

ZF net 結構圖(圖片來自論文:《卷積網絡的可視化與理解》)

學術界的反映其實總要比我們想象地要快得多,在 2013 年的 ILSVRC(ImageNet 大規模視覺識別挑戰賽)上,就出現了大量的 CNN 模型,而其中奪得桂冠的就是 ZF Net(錯誤率進一步降低到 11.2%),其實 ZF Net 更像是一個 AlexNet 的升級版,但它仍然有以下特點:

• 推出了反卷積網絡(又名 DeConvNet),一種可查看卷積網絡(CNN)內部運作的可視化技術。

• 激活函數用了 ReLu,誤差函數用了交叉熵損失(cross-entropy loss),訓練使用批量隨機梯度下降方法。

大大減少了訓練模型使用的圖片數量,AlexNet 使用了 1500 萬張圖片做訓練,而 ZF  Net 只用了 130 萬張。

論文:《卷積網絡的可視化與理解》- Matthew D. Zeiler, Rob Fergus

2014 年-VGG Net

VGG 結構圖(圖片來自 Keras 的博客)

看到這裡我們已經可以發現深度學習和 ILSVRC 深深的糾葛,接下來我們要介紹的 VGG Net 正是 ILSVRC 2014“圖像識別+定位”組別的獲勝者,誤差率為 7.3%。

VGG Net 具有以下特點:

  • VGG 結構在圖像識別和定位兩個方面都表現出色。
  • 使用了 19 層網絡,3×3 的濾波器。(而不是 AlexNet 的 11×11 濾波器和 ZF Net 的 7×7 濾波器相比)
  • 提供了可用於分層特徵提取的簡單深度結構。
  • 利用抖動(scale jittering)作為訓練時數據增強的手段。
  • VGG Net 成為里程碑的主要原因除了它在定位和圖像識別兩方面都表現突出外,還因為 它強調了卷積神經網絡需要用到深度網絡結構才能把圖像數據的層次表達出來,為之後深度學習的發展提供了指導。

論文:《用於大規模圖像識別的超深度卷積網絡》- Karen Simonyan, Andrew Zisserman

 

2014/2015 年-GoogLeNet

VGG Net VGG 結構圖(圖片來自 Keras 的博客:https://blog.keras.io)

讀到這裡的讀者應該已經能把 ILSVRC 這個大賽當作老朋友了。在 2014 年的 ILSVRC 大賽中,我們剛才介紹的 VGG Net 只是「圖像識別+定位」組別的冠軍,而 GoogLeNet 則憑藉 6.7%的誤差率贏得了 ILSVRC 2014 圖像識別的冠軍。

它具有以下特點:

  • 引入了「初始模塊」,強調了 CNN 的層次並不總是必須順序堆疊的。

  • 初始模塊(圖片來自論文《深入探索卷積》)
  • 22 層深的網絡(如果獨立計算則總網絡超過 100 層)。
  • 沒有使用全連接層,而是以使用平均池化代替,將 7x7x1024 的輸入量轉換為 1x1x1024 的輸入量。這節省了大量的參數。
  • 證明了優化的非順序結構可能比順序結構性能更好。
  • GoogLeNet 的創新主要在於這是第一個真正不通過簡單順序疊加卷積層和池化層來構建的 CNN 架構之一,為後來 CNN 在架構上的創新打下了基礎。

論文:《深入探索卷積》- Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich, Google 公司,北卡羅來納大學教堂山分校,密歇根大學安娜堡分校,Magic Leap 公司

2015 年—微軟 ResNet

ResNet 結構圖(圖片來自於論文:《圖像識別的深度殘差學習》)

ResNet 是 2015 年 ILSVRC 的獲勝者(又是 ILSVRC!),它的誤差率達到了驚人的 3.6%,首次在圖像識別的準確率上超越了人類(5%-10%),它擁有以下特點:

  • 真的很深,ResNet 具有 152 層的「極端深度」(原文作者用 Ultra-deep 這個詞來描述它)的結構。
  • 提出了使用殘差模塊以減輕過度匹配。

殘差模塊(圖片來自於論文:《圖像識別的深度殘差學習》)

論文:《圖像識別的深度殘差學習》- Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, 微軟亞洲研究院

意義:超越人類還不算意義嗎?

深度學習只有 CNNs(卷積神經網絡)嗎?

當!然!不!是!現在我們終於能擺脫被 ILSVRC 支配的恐懼,談點其他的了,事實上,深度學習的模型還包括:

  • Deep Boltzmann Machine(深度玻爾茲曼機)
  • Deep Belief Networks(深度信念網絡)
  • Stacked Autoencoders(棧式自編碼算法)

如果你讀到了這裡,仍然想了解一些深度學習的技術細節,請點擊這裡閱讀這篇文章 【站在巨人的肩膀上,深度學習的 9 篇開山之作】,裡面對本文中提到的論文進行了較為深入的解讀,並且對非 CNNs 的深度學習模型進行了介紹。

想知道更多人工智慧發展新趨勢?
2017 
年全台最盛大   全球商業趨勢匯壇,與你有約!

____________________________________________________

TechOrange  徵才:社群編輯+實習編輯】

你是否常在各類豐富的科技趨勢裡流連忘返?
你是否常被創業故事弄得熱血沸騰無法成眠?
你是否喜歡很有挑戰性、嘗試新事物的工作?
我想你大概就是得了  TO  病,不加入不行了。
準備好你的履歷自傳,寄至  jobs@fusionmedium.com
記得標註你要「應徵  TO  社群編輯」,才不會跑錯棚哦!
>> 
詳細職缺訊息

____________________________________________________

(本文經合作夥伴 36  授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈熬過深宮十幾載,深度學習上位這五年 〉。)

延伸閱讀

【人工智慧運算里程碑】微軟打造超強 AI 運算硬體平台,攜手 Intel 攻佔雲端即時運算市場
從太空科技到人工智慧,量子電腦的應用會全面顛覆現有科技!
誰說人工智慧不會作曲?全球首張 AI 作曲專輯即將發行,現在就放給你聽!
台大資工系教授的 AI 全面戰略分析:新創要發展 AI ,就要先知道人工智慧的藍海在哪裡
【人工智慧的潛在商機】人工智慧將在這 4 個缺工嚴重國家起飛,台灣也上榜

點關鍵字看更多相關文章: