《TO》導讀:轉載自合作媒體《36kr》。

36kr》編者按:電腦視覺(Computer Vision)領域歷史悠久,業界對此一直都不缺乏想像。當圖像和視頻總量每年以數十倍的速度增長,增長到人們有一天再也無法通過文字整理和檢索這些資訊時,電腦視覺技術或許會和當年的關鍵字搜索技術一樣,成為救世主。

本文來自美國電腦視覺公司創始人 Orbeus 劉天強(微博@劉天強 Orbeus)投稿,從究竟什麼是電腦視覺技術?它的局限性何在?它應用在實際場景中的表現如何?它未來又會有多大的發展空間?四個方面分享了他關於 「電腦視覺,Computer Vision」 的思考。

「黑夜給了我黑色的眼睛,我卻用它研究CV」

2014 年的新年鐘聲剛敲響不久,CES 的喧囂也才剛剛落下帷幕,人們還沒有從炫酷的智慧手錶、無人駕駛汽車,以及虛擬實境頭戴那不真實的硬體世界裡清醒過來,兩起發生在電腦視覺領域的收購卻在新年伊始短短兩周裡悄然發生著,說是不起眼,其實已經是該領域一年多來的第八起收購案了。

這兩起收購,一起是剛剛發生的 QualComm 收購圖像識別公司 Kooaba,另外一起是一周以前 Pinterest 收購物體識別公司 VisualGraph。而近兩年該領域的收購記錄可以列出長長的一串名單,從雅虎收購深度學習公司 LookFlow 和圖像標注公司 IQEngine,到 Google 收購移動圖像識別公司 Viewdle 和深度學習公司 DNNResearch,再到更早先的 Dropbox 收購圖像標注公司 Anchovi Labs 以及 Facebook 收購人臉識別公司Face.com

除了舉不完的收購案以外,該領域近一年的人事變動也風風火火,從 Google 挖來多倫多大學深度學習界的大牛 Geoffrey Hinton,到 Facebook 成立人工智慧研究院並邀請紐約大學名宿 Yann LeCun 擔任院長,再到百度成立深度學習研究院並邀請 NEC 資深科學家余凱加盟,後者在近期甚至推出了對機器學習方面的人才開出百萬年薪的「少帥計畫」,業界對於電腦視覺界尖端人才需求不可謂不熱切。

  • 「電腦視覺」超酷,而它究竟會在未來科技領域上扮演何種角色?

電腦視覺領域是個歷史悠久的領域,業界對該領域一直都不缺乏想像。從三菱 Merl 實驗室推出的第一個商用人臉識別系統,到數年前 PittPatt 在茫茫人海中搜索到一個不起眼的群眾,再到近年亮瞎小夥伴們雙眼的 MIT 媒體實驗室廣泛應用視覺技術的新一代人機交互介面 Six Sense

然而,一些疑問一直留存在人們心目中:電腦視覺領域是一個看上去很美的領域,為什麼一直以來沒有誕生過巨頭?而又是什麼原因,導致近兩年該領域人潮流動,收購頻發?另外,這樣一門艱深的技術,在業界又扮演著什麼樣的角色呢?

1. 什麼是電腦視覺技術

如果需要妥善回答這些問題,需要先解釋一下電腦視覺技術是做什麼的。雖然廣義上包含了非可見光的圖譜分析、熱傳感圖像分析等領域,但狹義來講就是大家都知道的圖像和視頻分析:在沒有文字或其他資訊(例如訪問圖像的使用者資訊等)的輔助下,僅根據圖片圖元資訊分析出圖像的語義。

例如:找出看 Youtube 視頻下面的注解,然後告訴你視頻裡面有鳥叔就不屬於電腦視覺;但識別出海報照片的內容並告知你明天 MIT 有 LadyGaga 的講座就屬於電腦視覺。

2. 電腦視覺技術的「限制」是最需要考慮的問題

這類技術的優點主要在於,其可供分析的對象的存在範圍十分廣泛。今日滿世界氾濫的圖像和視頻,仍然以每年十倍於上一年的速度增長,因此圖像視頻的分析整理檢索,一定是未來一個巨大的產業。然而,該技術的限制,才是最需要考慮的問題。

其主要限制有三:

其一,在需要最精確結果的領域,往往有比視覺技術更好的替代方案:例如檢測車輛的行駛,自動分析交通燈拍攝的錄影顯然不如在馬路上安裝感測器來的精准,尤其是遇到下雨天或者車輛角度較偏的時候。

其二,往往需要大量的訓練資料,導致無法滿足長尾需求:例如需要識別不同的貓種,從美短到蘇格蘭折耳,再從梵貓到俄羅斯藍貓,如果定義可識別物體種類的人不是貓咪專家,便很難想到相關知識,更不用說去建立對應的資料集,況且世上能夠識別的物體和概念數不勝數,可以細分到不能再細分,根本無法建立起一個萬金油式的資料庫滿足所有人的識別需求。

其三,理論可行,工程昂貴:拿最近很火的深度學習舉例,早在人工神經網路統治的時代就已經被提出,多年因為硬體軟體的發展限制而被束之高閣,直到近幾年硬碟讀寫速度加快、GPU 技術的進步以及大規模分散式運算的發展,使得原先需要幾個月的訓練可縮短至數日完成,這才開始登大雅之堂。

總結起來,電腦視覺技術的缺點在於不擅長做精准的定量分析,例如從照片看人年齡的問題,電腦能夠估計出這個人看起來大約像 23 歲,是一個年輕人,但不會知道這個人實際年齡正好是 25 歲。但其優點也很明顯,概括起來是:應用範圍廣、需求多並適合做定性分析。

3. 電腦視覺技術的實際應用尚處於起步階段

鑒於上文所談到的三點局限性,在定量分析領域,電腦視覺技術常常只充當輔助角色。

例如,手機解鎖這個應用雖然目前也應用了電腦視覺技術(例如人臉解鎖和指紋解鎖),但傳統輸密碼的方式也並沒有被取代。另一個例子是銀行 ATM 支票掃描的 OCR 模組,儘管這個技術早在兩年前在學界就已經有了速度夠快、性能夠優越的演算法,但 ATM 仍然會提供手工輸入支票數額的功能。

在這些領域當中,電腦視覺都扮演著「Good to have」,卻遠不是「Neccessary to have」的角色,所以才會讓大量以視覺技術作為賣點的公司覺得疲憊:雖然技術難度大,但是可被替換性強,甚至客戶都會覺得這個技術可有可無,因此綜合考慮性價比較低,固然技術酷炫,授權的價錢卻肯定不會高,在國內甚至到了大公司只願意免費使用但都不願意付錢的程度。

一言以蔽之,電腦視覺技術「叫好不叫座」。

雖然情況並不樂觀,但並非所有的領域裡,電腦視覺都只能充當配角。該技術具有「大量資料定性分析」的特點,所以似乎天生是為下面三類問題而生:一是搜索,二是視頻分析,三是定性分析。但目前即便是這三個主場,電腦視覺技術的生存空間也十分有限。

先提搜索。搜索是一個對於召回率(Recall)的要求要高於準確率(Accuracy)的應用,也就是說,用戶不期望搜索結果每一個都是他們想要的,只要排名靠前的結果裡多數是對的就行,加之每天經手搜尋引擎資料量之巨,就不難理解為什麼 Google 和百度對於電腦視覺領域一直保持業界最敏感嗅覺了。

無論是早先的 Google Image Search、Google Gaggle,還是最新推出的百度識圖,其概念在於解決「當你不知道該如何用文字和詞語描述一件物體時,還能夠進行搜索」,例如你知道一個女優長相卻不知姓名和其他任何資訊,然而你卻希望看到她更多的圖片甚至她的資訊,再比如你想知道路人的一款 Prada 包在哪兒買卻不知款式。

另一個方面是,搜尋引擎原始資料量之大保證了提供給用戶的返回結果中有他們需要的結果的概率很大,因此即使有若干不準確的結果,但並不影響用戶體驗。這無疑是個完美的領域,然而巨頭林立讓創業者直接從事相關業務,很難殺出一條血路。

再說說視頻分析領域。該領域最重要的特點是資料量大(單個視頻輕鬆達到上萬張圖片),而且相比搜索,資料相關性更強,可以用前後幀分析的結果做資料平滑,理論上能夠把分析的精度做得比圖像更高,因此也是一個非常適合電腦視覺技術大展拳腳的領域。然而在這個領域,雖然無數基於文本和使用者資料分析的公司如雨後春筍,但以電腦視覺技術為本的成功公司卻鮮有所聞,更不用提出現巨頭。

從產品的角度考慮,需要視頻分析功能的使用者基本是一些擁有大量視頻的公司,這就造成了以視頻分析作為主產品的公司往往需要依附於其他公司而生,如 Youtube、Hulu、Youku 等,然而這些視頻公司多數迄今為止都並沒有盈利,而同時又沒有證據證明引入電腦視覺技術的視頻分析能夠説明他們增加多少收入。

此外,儘管集群和平行計算技術發展迅速,然而理論上可行的視頻分析,在面對海量視頻的時候,還是需要消耗昂貴的計算資源成本。因此對於視頻所有者來講,由於很難估計採用電腦視覺技術來分析視頻的淨收益,因此對於加入視頻內容分析就成了他們較低優先順序、採取觀望態度的任務,也缺乏消費的欲望。 

最後談談用電腦視覺技術對某些垂直領域進行定性分析。這類需求非常多樣:商家希望統計用戶對商品的關注度,廣告公司尋找目標人群,互聯網或者媒體公司做戰略決策時需要多媒體的統計資訊,等等。

舉一個多年前很多人就已經試圖實現的點子:在商場裝多個攝像頭做人臉識別和跟蹤,用以統計類似於在某些貨架前停留時間比較長的人群屬性,例如男女年齡段和表情等。

另一個例子是帶著攝像頭的看板,可以自動識別牌子前的人性別年齡等並且呈現對應的廣告,例如長得不好看的女生會看到整形醫院的廣告,貌似屌絲的文弱男生會看到壯陽藥的廣告等。想法非常 sexy,但迄今為止為什麼還沒有大紅大紫的公司出現呢?

從商業的角度看,主要還是目標客戶的購買欲望不強。例如商家統計資料的例子,買家可以有商店商家或者監控解決方案商,對店家來講,也許去查商品生產商的財報或者行業報告比這小範圍的統計資訊更全面更準確,對監控解決方案商來講,主營業務是安防和監控,其客戶不會為了專門統計攝像頭影像資訊專門去購買一套昂貴的解決方案。

再看廣告公司那個例子,取決於尋找他們的商戶希望播放什麼樣的廣告,不太可能對全範圍的客戶都能有對應的廣告,因此即使看板檢測到眼前是一個長得醜的女士,出來的廣告也很可能不是整形醫院,還可能是壯陽藥,因為很可能根本沒有整形醫院找他們做廣告。

最後一個 case 是互聯網或者媒體公司,傳統媒體往往談判週期長,而且對內容的版權十分謹慎,通常從技術供應商起家的小公司,沒等到合作就已經撐不下去了,如果自己爬內容的話,則會有面對版權訴訟的風險,而手握巨量資料的互聯網巨頭,基本會採取收購或者內置團隊自主研發,不太傾向使用協力廠商的技術授權。

我們不能斷言,在垂直領域中,任何領域都沒有剛需,但至少在現階段,以電腦視覺為本的技術公司,都還處在艱難的摸索階段。

4. 電腦視覺技術領域的巨大空間不可否認

儘管目前電腦視覺技術對工業界的探索還處於剛起步的階段,但仍不可否認該領域巨大空間的存在。就拿互聯網的發展為例子,從零零星星、和孤島一樣相互存在的網頁開始,到需要有一個方法整理這些資料,因此雅虎出現了;而當門戶網站也已經裝不下整個互聯網時,Google 出現了。

圖像和視頻領域也如出一轍,當每年圖像和視頻總量都以數十倍的速度增長,而人們到了一天再也無法整理和檢索這些資訊時,電腦視覺技術就會和當年搜索技術一樣成為救世主。搜尋引擎公司如 Google 百度,對此敏感也是因為他們逐漸意識到,當在移動端橫行、乃至上傳圖片的媒介都已經從手機變化到手錶眼鏡時,文字就再也難以用來像以前一樣標注圖像。

這意味著將來有一天,也許按照傳統方法開發的圖片搜索就再也難以滿足人們的要求,就像門戶網站在科技發展的大潮中衰敗下去一樣。在每一個科技浪潮裡都有弄潮兒的存在,電腦視覺這個領域無疑也不例外。在剛剛結束的 CES 中,Orbeus 與 AMD 聯手推出新的視頻圖像管理系統,更發佈了其基於深度學習(Deep Learning)的物體場景識別系統,以及對應的 iPhone 手機演示應用程式,該系統能夠識別多於 2000 類的物體和場景。

不難想像在不遠的將來,你帶著眼鏡或智慧手機行走在旅途中,邊走邊看時不再需要搜索,眼鏡或手機就會告訴你眼前的龐貝古城是怎樣形成的,會告訴你眼前的阿拉斯加大螃蟹或者波士頓龍蝦怎麼做會比較好吃,會告訴你眼前扎眼閨蜜的 LV 包是不是舊款、還在不在貨架上,甚至於告訴你眼前這家其貌不揚的川菜館有全北京最好吃的麻婆豆腐。相比之下,告訴你眼前哪個方向美女比較多可能是其中相對下里巴人的應用範疇。

這個世界上,仿佛有一個無所不知的大腦,每時每刻都在將其所知所學告訴給你。大到告訴你眼前的茂陵埋葬了一段多麼氣勢磅礴的歷史,小到告訴你面前千嬌百媚的美女原來以前跟你念過同一所大學。你可以搜索照片中過去記憶裡在夏威夷沙灘上的美麗瞬間,也可以告知你朋友,原來你有如此美麗的關於關島的愛情記憶。武學之最高境界不過「無招勝有招」,搜索之最高境界不過「天下再無搜索,而搜索卻無處不在」。

  • 其實「電腦視覺」已經有了令人為之一亮的產品!

另外,在圖像和視頻領域裡還有許多公司也推出了讓人眼前一亮的應用和產品。

例如早先被 Facebook 收入囊中的 Face.com,其在被收購前就推出了一款當時被人稱為「恐怖」的應用——Klik。這款應用能夠根據手機所對應的位置,告訴你站在那裡的人的姓名以及 Facebook 主頁。假設這款應用不是因為收購案而被關閉,可以想像,在私人資訊在互聯網上大行其道的今天,我們通過這個應用,就能夠輕易知道自己見到的任何一個人的身份,包括職業經歷、愛好、甚至家庭。

除了直接面對消費端用戶的應用外,還有一些公司專注於解決電腦視覺領域一些艱難的問題,以期推動業界的發展。

例如去年剛被雅虎收購的資料標注公司 IQEngine,這家公司的存在就是為了解決大量圖片無法標注使用的問題,他們動用亞馬遜的標注服務 Mechanical Turk,跟廣告商收費,打通公司和 Mechanical Turk 的無縫介面,一方面提供標注識別服務,另一方面也獲取訓練資料。在 IQEngine 被收購前的最後幾個月,這家公司也在自己平臺上推出了基於機器學習演算法的物體場景識別以及人臉識別。

此類公司還有三藩市創業公司 Ersatz,主打降低深度學習應用的門檻。任何公司都可以使用他們的平臺上傳資料並且自動完成模型的訓練。其解決的是電腦視覺領域的技術構架和流程整合問題,可以想像將來這家公司的發展方向,也許是向著類似 Cassandra 解決方案供應商 Datastax 的方向發展的機器學習解決方案供應商。

當電腦視覺技術在工業領域的一個個瓶頸都被這些公司解決,當人們整理圖片視頻資料的需求越來越熱切,並且,當前硬體技術及平行計算技術已經到了可以支撐電腦視覺領域的轉捩點時,我們有理由相信,伴隨著可穿戴設備的逐漸普及,必然會有以電腦視覺技術為本的公司在下一波互聯網新貴中出現,讓我們拭目以待!

  • 延伸閱讀:

 Google Maps 不斷優化卻全部免費,Google 到底在盤算些什麼?

賽亞人眼鏡來了!眼前的人是廢材還是人才一目瞭然

新鮮現採!台灣網路科技界眼中的 2013 五大趨勢(二)

(轉載自合作媒體《36kr》;圖片來源:Kyle McDonald,CC Licensed)