李飛飛又來改變世界了:讓 AI 設計一個「圖像辨識」AI,精準度比人類還高!

【為什麼我們要挑選這篇文章】AI 時代產生了新的職業:標註員。他們負責在圖片和影片上標記,教導 AI 辨識;然而這項工作可能消失。來自霍普金斯、史丹佛和 Google 的科學家聯合發佈了一篇論文,他們用神經架構搜尋(NAS)技術設計了一個神經架構 A,讓它自動搜尋/設計出新的神經架構 B,投入圖像語義分割的任務中。研究人員發現, AI 自己設計的神經架構 B,圖像辨識的表現已經超越了現有人類設計與訓練好的模型。

這項技術除了用於發展 AI ,也可用於人像辨識和自駕車領域;然而,也會讓標註員們失業。(責任編輯:郭家宏)

你可能聽說過,在河南的農村裡,在非洲的城市中,每一個你想像不到的地方,有著大量的數據標註員。

目前是標註員負責訓練 AI ,但他們將失業

他們手動在圖片裡把每一個花瓶和每一輛汽車框出來,並且標上「花瓶」和「汽車」。一段時間後,這些人把成千上萬張標記好的圖片打包,發送給遠在北京、上海甚至舊金山的 AI 公司。

GQ 將這些人稱為《那些給人工智能打工的人》。

人工智慧發展迅速,大大小小的網路科技公司相繼開展研究,投入商用。然而訓練一個可用的 AI,需要大量準確標記好的圖片、影片等資料。

正因為此,市場對數據標註的需求如此之大,吸引那些「給 AI 打工的人」爭相加入,其中不乏原來找不到工作的閒散人員 — 畢竟這份工作只需要動動滑鼠,用不上太多知識。

但是,恐怕不久後,這些人就將再次失業。

AI 自動設計 AI ,投入圖像語意分割的任務

上週,來自約翰.霍普金斯大學、史丹佛大學和 Google 的專家聯合發佈了一篇 論文 ,介紹了他們使用神經網絡來自動搜索神經網絡,將其投入圖像分割方面的研究,並且取得的重要進展:

研究人員採用神經架構搜尋(Neural Architecture Search,NAS)技術設計了一個神經架構 A,放任它去自動搜尋/設計出新的神經架構 B,投入到圖像語義分割(semantic image segmentation)的任務中。

研究人員發現,這個被自動搜尋出來的神經架構 B,在主流的小規模圖像數據集上,未經訓練就直接使用,表現已經超過了現有人類設計的、預先訓練好的模型。

以往人們一直相信,設計 AI 需要大量知識和經驗,簡而言之就是需要人來設計。

但現在,AI 設計出的 AI,已經比人設計出的 AI 更強。

(論文: Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation )

研究人員將這個能夠自動搜尋(設計)神經架構的技術命名為 Auto-DeepLab 。這個名字來自於 DeepLab,Google 人工開發的圖像語義分割技術。前面加上 Auto,意思是在 DeepLab 的基礎上,新的技術可以實現了很大程度的自動化。

論文署名作者當中,兩人來自約翰.霍普金斯大學,其中第一作者是 Chenxi Liu,曾在 Google 實習;有四人來自 Google;剩下的一人來自史丹佛大學,正是原 Google Cloud 首席科學家,在電腦視覺學術和業界知名的李飛飛教授。

「本著 AutoML(編者註:Google 主導的 AI 計劃,將演算法選擇,模型的超參數調整,疊代建模和模型評估等工作自動化。)和人工智慧普及化的精神,對於不依賴專家經驗知識,自動設計神經網絡架構,人們的興趣有了顯著提升。」作者提到。

AI 自動設計 AI 的新突破:導入 NAS 技術、掌握外層設計

在「AI 自動設計 AI」這件事上, Auto-DeepLab 有幾個比較重要的新嘗試。

首先,神經架構搜尋 NAS 技術是 AI 領域的新興物種,主要用於簡單的圖片分類。而在這篇論文裡,研究者首次嘗試將 NAS 投入到高密度的圖片預測任務上(也就是對更複雜的高分辨率圖片進行語義分割,比如 Cityscapes 城市街景數據集、PASCAL VOC 2012 和 ADE20K 等數據集)。

其次,在電腦視覺領域內的神經網絡架構,通常分為內層、外層的兩級架構,自動化的神經架構設計往往只能設計內層,外層仍需要人來設計和手調。而 Auto-DeepLab 是第一個讓 AI 掌握外層設計和調參能力,並在圖像語義分割任務上得到優異結果的嘗試。

「圖像語義分割」六個字聽上去有點拗口,其實很好理解:對於一張圖劃分幾個類別,然後將所有的像素點歸類。

比如下面這張圖,可以簡單分為三類。圖像語義分割的任務,就是判斷每一個像素點屬於人、自行車,還是背景。

需要明確的是,圖像語義分割的任務純粹是判斷像素點屬於哪個類別,它不能識別和區分獨立的物體。

圖像語意分割升級,有助於攝影辨識和自駕車發展

不過圖像語義分割仍然有很重要的意義,比如在它可以用於手機拍照的「人像模式」。採用更優秀的圖像語義分割技術,手機能夠在更高精度的照片裡確認每一個像素點,屬於人,亦或是背景。

目前 Google、小米等公司都在手機拍照上使用這一技術。理論上,未來的「人像模式」可以在毛髮、衣物邊緣實現更好的效果。

以及在自動駕駛的場景裡,神經網絡需要判斷擋在前面的是車、行人還是建築物,進而採用不同策略進行躲避,這同樣需要圖像語義分割來打基礎。

從該論文體現的效果來看,Auto-DeepLab 還可以被轉移到其他任務上。言外之意,讓 AI 自動設計 AI 這件事,可能還會有很大的想像空間。

比如作者在論文最後提到,在目前的研究框架內,他們可以繼續在物體識別的方向進行研究。

如果能夠取得類似的結果並大規模使用,或許有一天,在數據標註(特別是圖像標註)這件事上,人類標註員的成本等優勢可能也會消失。

如果人工智慧可以給人工智慧打工,打工效率比人還高,「那些給人工智慧打工的人」會失去工作嗎?

(本文經合作夥伴 品玩 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈李飞飞等人的新研究,可能让人工智能真的不需要人了 〉。首圖來源: 品玩

更多 AI 新發展

【血汗 AI】負責訓練 AI 的作業員,薪水只有 9 到 18K 是怎麼回事?
【AI 會作弊了】Google 訓練 AI 轉換街景圖像,AI 在地圖藏人類看不到的「小抄」騙過工程師
榮總將推出全台首家「AI 門診」!600 倍高速診斷,準確率高達 80%

點關鍵字看更多相關文章: