【我們為什麼挑選這篇文章】沒想到竟然有一個人可以擔任圖像識別技術的「終極考官」,而且還是個與科技界比較少見的華人女性。
目前圖像識別的技術仍有一大段路要走,如果哪天技術真的獲得大幅提升,那連帶的機器人產業、電玩產業、臉部識別、汽車產業等眾多不同領域的產業都會受到重大的影響。
(責任編輯:Matthew Chen)
每年,史丹佛都會舉辦一個比賽,叫作 ImageNet 視覺識別挑戰。
這個比賽的參與者不是學生團隊,而是全球的科技巨頭,比如 Google 呀、微軟呀、百度啊啥的。
怎麼比呢,簡單說來,ImageNet 相當於一個算法考場,而大公司就可以利用它家的龐大題庫進行考試,正確率越高,當然就是本場比賽的冠軍了。順嘴一說,去年六月的時候,百度因涉嫌在測試過程中作弊,而被 ImageNet 組織方禁賽一年了。
而很多人打死都不會想到,這個「引無數英雄競折腰」的 ImageNet,背後的「終極考官」竟然是個大美女!還是個華人美女!
她就是李飛飛,一個集才華與美貌於一身的女子。
- 明明可以靠臉吃飯,卻偏要拼才華
出生在北京的李飛飛,16 歲隨父母移居美國。或許對科學的愛就是這樣不分性別,李飛飛在 1999 年以最高榮譽獲普林斯頓大學物理學學士學位,輔修工程物理專業。
隨後,她在加州理工攻讀電子工程的碩博學位,並在 2005 年順利畢業。她的研究興趣主要集中在視覺研究領域,包括計算機視覺和視覺心理學,例如物體識別、場景分類和事件分類等。
2009 年,李飛飛來到了史丹佛,僅僅三年,李飛飛就晉升為終身教授,並成為史丹佛大學人工智能實驗室(SAIL)及史丹佛大學視覺實驗室的主管。
在李飛飛 2014 年的簡歷上,有 95 篇在 Nature、PNAS、Journal of Neuroscience、CVPR、ICCV、NIPS 等頂級期刊與會議上發表的文章;聯合發表文章 32 篇。
懷疑論文太水?隨便列舉幾個李飛飛獲得的獎項吧:
2006 年微軟學者新星獎以及 Google 研究獎
2009 年 NSF 傑出青年獎
2011 年美國斯隆學者獎
2012 年雅虎實驗室學者獎
2014 年 IBM 學者獎
不過比起那些只埋頭工作的學者,李飛飛靠著自己的才華參加了不少演講,在她 19 頁的簡歷裡,有四頁是關於參加過的各種演講。她和媒體的關係也一直不錯,上過 New York Times 和 TED。
「明明可以靠臉吃飯,卻偏要拼才華」,李飛飛就是這句話的最佳代言人 …… 而現在,她又搖身一變,成為了 Google、微軟等一眾科技公司在圖像識別的終極考官。
- ImageNet,圖像識別的考場
作為全球計算機視覺領域的知名專家,李飛飛的主要貢獻在於參與建立了兩個被 AI 研究者廣泛使用來教機器分類物體的數據庫:Caltech 101 和 ImageNet,而後者,目前已經成為了全球最大的圖像識別數據庫。
如果說李飛飛是圖像識別的大考官,那麼她一手創建的 ImageNet 就是科技公司在圖像識別的考場。為什麼不從算法上優化機器的「眼睛」,而是從「大腦」入手?
以往,計算機識別的邏輯是:
教計算機看到「對象」。研究者將訓練圖片抽象成一些模型,並藉算法告訴計算機:「有著圓臉、胖身子、 兩個尖尖的耳朵,還有一條長尾巴的東西,就是貓。」
然而,如果小貓是以這種形態存在的呢? (笑)
- 演算法決勝負!
雖然一個 3 歲小孩都可以輕易地判斷,這也是一隻貓,但計算機就已經蒙圈了:它並不符合「貓」所代表的模型特徵。
這就陷入了一個難題:即使是再常見的寵物,都可能呈現出多變的形態,只通過歸納模型來做機器識別,是不科學也不現實的。
所以,以 ImageNet 為代表的圖像識別數據庫提供了一種更接近人類識別物體過程的方式:
沒有人教嬰兒怎麼看,但他們在 3 歲的時候就能認得很多東西,這是因為人是從真實世界中汲取經驗的。
「如果你把孩子的眼睛都看作是生物照相機, 那他們每 200 毫秒就拍一張照。這是眼球轉動一次的平均時間。 所以到 3 歲大的時候,一個孩子已經看過了上億張的真實世界照片。 這種『訓練照片』的數量是非常大的。」
利用互聯網,ImageNet 提供了一個龐大的圖片數據庫,讓計算機系統能夠在 1500 萬張照片裡認識 22000 種物品。
而教會了計算機看東西還只是第一步,我們還需要算法的力量!
- 科普時間:神經網路與圖像辨識
作為和大腦神經原理類似的捲積神經網絡,用 ImageNet 來訓練實在是再合適不過了。卷積神經網絡,最早由 Kunihiko Fukushima、Geoff Hinton、和 Yann LeCun 三人在上世紀七八十年代開創。
就像神經的最小運算單元是神經元一樣,神經網絡的最小單位也是一個小節點。節點通過連結不同的結點,能夠輸入輸出信息,實現「思考」。如果將一張圖片以不同維度分為各種層次,每個層次用來識別不同的內容,比如花色、顏色、形狀等等。
想像一下,如果有 30 種不同的維度進行過濾和篩選 …… 準確度是不是有著令人驚訝的提高?
在一個用來訓練對象識別模型的典型神經網絡中,有著 2400 萬個節點,1.4 億個參數,及 150 億個聯結。借助 ImageNet 提供的巨大規模數據支持,研究者可以通過大量最先進的 CPU 和 GPU,來訓練這些模型。這兩者相輔相成,在對象識別領域發展成為一個成功的體系。
通過讓計算機讀出 Google 街景,實際上能得到很多有意思的結果。比如道路上的汽車價格與家庭收入,甚至是和犯罪率的關係。
然而計算機能讀懂了圖片,這一切就到此為止了嗎?
當然不。在大數據和機器學習算法的合力協作下,我們可以讓計算機這個剛剛認識一些事物的 baby 慢慢組織語言,並用完整的句子表達出來,就像一個真正的小孩一樣。
雖然有時候還是會鬧一些笑話:
- 圖像辨識技術仍有進步空間
雖然計算機目前還不能像人一樣,在看到圖片的一瞬就能理解它想要表達的情緒,還有各種事物背後所隱含和傳遞的訊息 ……
但,它已經在努力了不是嗎。
更何況,還有那麼多以「考官」李飛飛為代表的,一直在為圖像識別而努力的研究者們。他們或作為出卷人殫精竭慮,收集不同的圖片而完善算法的精度;或作為應試者,忐忑不安地讓計算機接受系統的「考驗」;但不論作為哪一方,他們都朝著同樣的方向,都在努力讓計算機能獲得更好的「成績」。
或許,終極考官李飛飛面臨的是這樣的境地:一方面,她希望 ImageNet 考場裡的「試題、能難倒前來應試的計算機們,因為這說明算法的突破口就在這裡;而另一方面,如果計算機成功答出了試題,說明圖像識別的技術又進步了一分。攻克了一道「難題」,正確描述出了某張圖片上的內容,都值得雙方歡呼雀躍;而這樣甜蜜的煩惱,也是考官李飛飛所享受的。
而最最重要的是,ImageNet——這個集合了全球智慧和力量的數據庫——是免費的。這也就意味著,全球所有致力於圖像識別的公司,都可以免費對自己的算法進行反複測試。這就好像一個龐大的試題庫,只要願意,任何公司都可以一直接受考官的檢驗。
(本文經合作夥伴雷鋒網授權轉載、編輯導讀與修訂標題,原文標題為:谷歌微软的图像识别行不行,还得斯坦福的李飞飞说了算;頁首圖片來源:Wiki, CC Licensed。)
——
- 延伸閱讀
比 Google 還厲害? 百度道歉:我錯了!在圖像識別競賽中違規
五十音看嚨嘸,四個工程師照樣開發出準度 98.66% 的日文識別軟體
臉部識別系統大功告成,FBI 宣布將用來調查罪犯