Google 科學家研發「多任務機器人」:1 天內適應新任務、成功率達 89%

【我們為什麼挑選這篇文章】Google 幾位科學家聯手研發出了能處理大規模任務的新型機器人,突破訓練機器人工程設計量大、耗費時間長的限制,以後是不是一台機器人就能處理多種任務了?(責任編輯:賴佩萱)

本文經 新智元(公眾號 ID:AI_era)授權轉載,轉載請連繫出處

作者:新智元

隨著任務數量的增加,使用當前計算方法來構建通用的日常機器人的成本變得過高,人們正在快速尋求一種解決辦法。我們都希望通用機器人可以執行一系列複雜的任務,例如清潔,維護和交付等等。

但是,即使使用離線強化學習(RL)來訓練單個任務(例如清潔),也需要大量的工程設計、花費很長的時間,這看似是件不可能完成的事!

線上強化學習和離線強化學習的演示圖

可以處理大規模任務的機器人誕生!

但是經過科學家們的不斷努力,機器人的發展遇到前所未有的機遇。

任職於 Google 的幾位優秀的電腦科學家,率先研發出了處理大規模任務的新型機器人。

德米特里‧卡拉什尼科夫(Dmitry Kalashnikov)是這項研究的第一作者,年紀輕輕的他於 2009 年創立了 AI Digit 公司,2013 年加入 Google,擔任軟體工程師一職長達 7 年多。

傑克‧瓦利(Jake Varley)作為第二作者,本科畢業於麻省理工大學(MIT)計算機科學專業,2013 年順利成為哥倫比亞大學的博士生,一畢業就收到 Google 拋來的橄欖枝,現在 Google 任 SWE 一職已經 3 年了。

卡羅爾‧豪斯曼(Karol Hausman)作為第三作者,是南加大電腦科學專業的博士生,也是 2018 年加入 Google,目前主要擔任 Google 機器人控制和 Google 大腦實驗室的科學家。

這項研究主要展示了機器人離線強化學習(RL)的兩個新進展,即 MT-Opt(一種用於自動數據收集和多任務 RL 訓練的系統)以及 Actionable Models(可動模型),該模型利用獲取的數據實現離線學習的目標。

MT-Opt 引入了可擴展的數據收集機制,該機制在真實的機器人上可以收集超過 800,000 個任務,相比以往很多多任務離線學習的成功應用,其平均性能比基線提高了約 3 倍。

更神奇的是,它還可以 使機器人在不到 1 天的時間內對新任務進行適應,接著快速掌握新任務

即使在沒有特定任務和獎勵的情況下該機器人也可以進行學習 ,這不僅極大地增加了機器人可以執行的任務數量,並可以更有效地學習下游任務,所以為了大規模地收集多樣化的任務數據,他們創建了一個可擴展且直觀的多任務檢測器來指定任務,目的是為了要收集最終平衡結果的數據集。

科學家怎麼做到的?

為了訓練該系統, 科學家們收集了 9600 個機器人數據(來自七個機器人連續 57 天的數據收集),並採用監督學習(supervised learning)的方式來訓練多任務,甚至允許用戶快速定義新任務及其獎勵的設置

首先當收集數據時,需要對各種現實因素進行監察和定期更新(例如不同的光照條件,多變的背景環境以及機器人靈活的狀態)。

其次,透過使用較為簡單的任務解決方案,有效地引導機器人學習更複雜的任務,這樣在針對不同任務時,可以同時使用多個機器人同時操作。

一旦形成針對性訓練,每個任務的數據量和成功情節數便會隨著時間增長。

為了進一步提高性能,科學家們還重點放在某些表現欠佳的任務上進行調試和訓練,逐一突破!

成功率高達 89%!

儘管這種數據收集策略可以有效地收集大量數據,但任務之間的成功率和數據量是不平衡的。

所以為了解決這個問題,他們命令機器人對每個成功或失敗的任務進行標記。這一步驟之後再將已經達到均衡的任務發送到多任務 RL 訓練管道。

好消息是,對於具有多數據的通用任務,MT-Opt 的成功率是 89%(QT-Opt 的成功率是 88%),罕見任務 MT-Opt 的平均成功率是 50%。

使用可操作模型(Actionable Model)可以使機器人系統地學習大量的指示技能,例如物體抓握,容器放置和物體重新佈置。

除此以外,該模型還能訓練數據中看不到的物體和視覺目標,新的機器人具有「學習世界」的能力!

小結論

MT-Opt 模型和可操作模型的結果都表明,真實的機器人可以學習許多不同的任務,並且這些模型有效地分攤了學習技能的成本。

這是邁向通用機器人學習系統很重要的一步,該系統可以進一步擴展到現實生活中,執行許多對人類有幫助的服務。

如果感興趣的讀者,可以具體參考這兩篇論文:「MT-Opt:大規模的連續多任務機器人強化學習」和「可行的模型:機器人技術的無監督離線強化學習」,網站上提供了很多有關 MT-Opt 的更多訊息、影片和可行的模型。

參考資料

Google

(本文經 新智元 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈MIT 小哥聯合谷歌訓練 7 個多任務機器人,9600 個任務成功率高達 89%!〉;首圖來源:pixabay。)

你可能會有興趣


點關鍵字看更多相關文章: