李飛飛協同斯坦福、CMU帶來全新成果:從網絡嘈雜的視頻中進行學習

 

【我們為什麼要挑選這篇文章】

你知道李飛飛是誰嗎?她是 Google 雲計算部門掌門人,還是史丹佛 AI 實驗室唯一的女性,一直不斷追求人工智慧的創新研究,這次又帶領史丹福大學和 CMU 團隊將人工智慧帶向新的一步。下面的文章可能很落落長,簡單來說就是團隊發現了一個可以更精準定義行為,讓機器能模擬人類行為更好的方法。

(責任編輯:謝秉芸)

李飛飛作為人工智能領域鮮有的活躍女性學者,不知道這一次她又帶領著團隊做出了怎樣的貢獻呢?趕緊隨雷鋒網 AI 科技評論來看看吧。這項研究是李飛飛團隊在今年CVPR 上的一項最新工作,該方法提出了一種模型用於自動標註網路中巨量的嘈雜視頻。

以下內容是雷鋒網 AI 科技評論根據論文內容進行的部分編譯。

論文摘要

人類行為多種多樣,而要如何才能讓機器理解具有多樣化和細粒度的人類行為,則是計算機視覺領域中的一個關鍵性的開放問題。通過手工的方式標註訓練視頻,對於少數的動作類型是可行的,但是這種策略無法完整覆蓋豐富多樣的所有動作。

李飛飛協同斯坦福、CMU帶來全新成果:從網絡嘈雜的視頻中進行學習

圖一,該論文中的模型使用一組標註數據來學習如何為新的沒有見過的動作類別進行標註的策略。這樣可以學習特定領域的專有知識,以及如何在避免語義漂移(Semantic drift)的同時選擇不同的範例。比如,該模型可以從訓練數據中進行學習,如圖所示,其中人的動作線索對正確動作分類的幫助更大(比如「騎馬」),而不是動物的外形。在測試期間,這種知識可以被應用於標記一些全新類別的嘈雜數據,比如「飼養動物」,而傳統的半監督方法則是基於視覺相似(Visual similarity)性進行標註。

當前,解決這一個問題的一個可能有效的策略是,使用半監督(Semi-supervised)或者「網路監督(Webly-supervised)」的方法,利用來自網路檢索所產生的嘈雜數據來學習新的動作。然而,這些方法要麼通常無法學習到特定領域的知識(Domain-specific knowledge),要麼依賴於需要不斷迭代的手工調整的數據標籤策略(Hand-tuned data labeling policies)。據雷鋒網了解在這項研究中,李飛飛她們團隊提出了一種基於增強學習(Reinforcement learning-based)的方法,該方法能夠從嘈雜的網路檢索結果中篩選出適合於訓練分類器的樣本。

李飛飛協同斯坦福、CMU帶來全新成果:從網絡嘈雜的視頻中進行學習

圖二,模型框架圖。該模型使用從網路搜索所得的候選示例集,為特定的視覺概念學習分類器。在每一個時間節距(time step)t,模型通過 Q-learning 的智能體來選擇樣本(比如 D k),並將該樣本加入到已經存在的正樣本數據集 Dt-1 中構成訓練樣本。然後該訓練樣本被用於訓練視覺分類器。分類器將同時更新智能體的狀態 s t+1 並提供一個獎勵 r t。然後在測試期間,經過訓練的智能體能夠用於從任意的全新的視覺概念的網路檢索結果中,自動選取出正樣本。

該方法的核心思想是,使用 Q-learning 來學習一個小型標籤訓練數據上的數據標籤策略,然後再利用該模型來自動標註嘈雜的網路數據,以獲得新的視覺概念。

據雷鋒網(公眾號:雷鋒網)了解,為了驗證該方法,研究員們在當前最富有挑戰性的動作識別數據集 Sports-1M 上進行了實驗,實驗內容包括動作識別基準、細粒度和新動作類別預測。通過實驗證明了該方法能夠為嘈雜數據學習到足夠好的標籤,並且使用這些標籤能夠學習到準確的視覺概念分類器。

通過學習從嘈雜的網路視頻了解

(本文經合作夥伴雷鋒網授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為〈李飛飛協同斯坦福、CMU 帶來全新成果:從網絡嘈雜的視頻中進行學習〉,首圖來源:Pixabay。)

 

延伸閱讀

Google 李飛飛親自推薦好文!你不可不知的機器學習十大盲點都在這
AI 不再只是大企業的玩具,李飛飛要用 Google Cloud 把人工智慧送進千家萬戶
【從清潔工到 Google 首席科學家】她改變了人工智慧界,還活成了所有美國人的偶像!
Google 發布最大消歧義語料庫,讓機器更聽得懂人話