這間公司用 AI 創造 AI!兩小時快速建模,傻瓜公式引導菜鳥也會用

【我們為什麼挑選這篇文章】機器學習一般是為建模工程師所使用,而這家位於矽谷的 AI 公司 R2.ai 認為,業務人員才是最適合應用機器學習的角色。他們致力於以 AI 創造 AI,號稱兩小時就可以建模,還加入了全生命週期管理的概念,幫助企業落實應用人工智慧。(責任編輯:方禹涵)

「《科技報橘》徵才中!跟我們一起定位台灣產業創新力 >> 詳細職缺訊息
快將你的履歷自傳寄至 [email protected]

瑪麗.雪萊在創作世界上第一部科幻小說《科學怪人》(又譯: 法蘭克斯坦 )的時候,恐怕沒法預見到在一個多世紀後的今天,真的會出現一種 脫胎於虛無,卻能判斷、能決策的存在

人工智慧(AI)自動化近年來受到了廣大的關注,但在真正的建模工程師和業務人員眼中,卻一直只是玩具級別的應用。 不但限制重重,繁瑣的編程和抽象的參數設置對於菜鳥用戶來說,也遠遠稱不上「自動化」。

誰能想到,早在 2015 年, 矽谷就成立了一家致力於開發「幫助創造 AI」的 AI 公司 日前,R2.ai 的創始人兼 CEO 黃一文接受了採訪,講述他們對於人工智慧自動化行業的發展趨勢以及產品技術核心的認識。

回歸本質:業務專家才是機器學習問題的最適解決者

AutoML(Automated machine learning)對於人工智慧社區來說並不能說是一個新潮的概念,國內國外的企業都陸續推出了自己的 AutoML 平台。但這些平台的使用者和服務對象往往是建模工程師,雖然能很大程度上提升建模工程師的工作效率,但對於常變常新的業務問題來說,卻仍然慢了半拍。

事實上,六年前的機器學習自動化產品就已經能夠在十幾分鐘內解決 TB 級數據的建模問題了,但對於希望在業務中應用機器學習的企業來說,往往苦於尋找優秀的建模工程師和探索真正有用的應用場景;即便對於已經開始了機器學習應用的企業來說,緩慢的開發速度和低下的模型質量也往往使得企業在高昂的投入面前望而卻步。

換句話說,「傳統的建模流程 + 超高速的機器學習自動化平台」這一模式並沒有突破企業在實際應用中解決機器學習的瓶頸。

「我們認為業務人員其實是最適合應用機器學習來解決問題的角色,讓正確的人使用正確的工具來解決正確的問題,是我們想要達到的效果」,黃一文說。

要最大化地利用企業的數據,讓需求多樣的企業真的能夠在業務當中落實機器學習技術,一個普遍性強、簡單易用且高度自動化的優質機器學習平台是不可或缺的。而這恰恰是 R2 Learn 2.0 的技術特點。

菜鳥的福音,數據科學家的得力助手

在 R2 Learn 2.0 中,R2.ai 為業務問題提供了一個端到端、高自動化的機器學習解決方案。黃一文表示,具有廣泛適用性的 AutoML 類產品對於產品化、最佳化及模型集成豐富度的要求很高,在 R2 Learn 2.0 中, 用戶甚至僅需滑鼠操作, 不斷根據平台的提示進行選擇,就可以在上傳數據後迅速建立模型。

不僅如此,在自動建模的過程中,R2 Learn 2.0 還實現了數據清洗及修復、特徵工程、模型評估等傳統建模過程單元的自動化。

如在上圖中,用戶通過 R2 Learn 平台,可發現該數據集存在兩個問題:

  1. 目標變數有 3 個水平值
  2. 預測變數裡存在缺失值和數據類型錯配

解決這些問題,用戶僅需點擊 Continue,平台就會引導用戶選擇目標變數中的唯一值,並對預測變數數據質量問題進行自動修復。

通過這樣傻瓜式的引導,即便是毫無機器學習知識和經驗的業務人員也能快速為業務問題進行針對性建模,從而實時滿足業務需求。而對於掌握有機器學習領域知識的數據科學家或分析師來說,R2 Learn 2.0 平台還提供了高級編輯模式,用戶不但能夠看到模型從數據預處理到模型評估的全過程,還能根據自己的經驗和偏好對模型進行調整,這也體現了平台的高度透明性和可解釋性。

自動學習,自動調參:AutoML 迎來改變

對任何一個建模工程師來說,從 0 開始建立一個模型都足以成為不眠之夜的噩夢。談到傳統建模過程的複雜性時,黃一文說道:「建模的挑戰主要是由建模過程在每一個步驟都有多元選擇造成的,比如修復數據品質可能就有三四種不同的方式,變量工程有十幾種不同的方式,算法的選擇和算法的參數調整空間就更大了。這些選擇會使得建模的複雜性指數型上升。」

從本質上講,無論是對於人類工程師還是機器,建模都是一個不斷試錯的過程。人類的優勢在於可以憑藉經驗和直覺找到一個不錯的試錯起點,但這不僅對建模工程師有很高的要求,還會使得模型的成功在很大程度上依賴於運氣。而對於機器來說,不斷嘗試正是機器最適合做的事情,輔以高效的優化算法,機器可以在短時間內嘗試大量模型並向用戶推薦最優結果。

R2 Learn 2.0 充分利用機器的算力優勢,並開發了自學習和自動調參技術來進一步提升平台的效率和模型的準確性。

「如果模型的原始參數與最佳值相距較遠,模型可能會很難收斂,也可能很容易發散到其他地方。為了找到一個合適的原始參數,我們的平台有一套基於增強學習的知識庫,當用戶上傳了數據開始建模時,我們會將用戶的數據與我們知識庫的數據進行精準的配對,從而使得模型從一個比較合理的超參數開始搜索。」黃一文介紹道。

兩小時建模,全生命週期管理

效率問題是自動化機器學習需要解決的首要問題。

「要讓機器學習自動化工具在企業中真正落實,我們必須實現端到端的自動化建模」,黃一文說道:「數據修復、特徵工程、模型選擇、模型調參、模型組合等步驟其實都是相互關聯的,自動化及最佳化的程度越高,模型要搜索的空間也就越大,而且是成百上千倍地擴大。」

自動化建模實際上是一個搜索最佳化問題。 即在所有的選項中,用最短的時間找到最優解。為了解決這一問題,R2.ai 基於強化學習、遺傳算法等開發了五種不同的優化算法,使得平台能夠在非常短的時間內用盡可能少的資源找到最佳模型。

R2 Learn 2.0 的高效在很多應用場景中都得到了體現,在一個金融行業的應用案例中,R2 Learn 2.0 需要在保證高準確性的情況下幫助一個避險基金公司建立人工智慧交易模型。在將近 100 萬行和超過 80 個變數的數據集上,R2 Learn 2.0 在兩小時內建出了一個 AUC 為 0.78 的模型,比原來的模型品質提高了 12%

「模型有不同的特點,有些模型建模速度非常快,有些模型精度非常高,有些模型效率非常高。而在金融場景中,模型的選擇是非常關鍵的」,黃一文向我們繼續介紹:「我們為 R2 Learn 2.0 設計了一個獨特的模擬最佳化技術,用戶可以將場景資訊輸入到模型中,系統會據此對模型進行重新最佳化,從而找到一個真正可以滿足用戶風險收益平衡需求的模型。」

除了效率問題以外,準確性問題也是自動化機器學習工具無法迴避的挑戰。

通過 端到端的全鏈建模流程整體最佳化 ,而不是幾個步驟的局部最佳化,這是 R2.ai 可以生成更優異性能模型的法寶。

建模的每一步都是互相關聯的。整體最佳化包括的步驟越多,生成優異模型的機率越高。當然,這同時意味著對最佳化算法的要求相應提高,這恰恰是 R2.ai 超越競爭對手的技術壁壘。

在一個醫療領域的案例中,醫院希望能夠通過病人的特徵數據和診斷數據預測並控制病人的再入院率。R2 Learn 2.0 通過對病患的畫像、患病史、醫療診斷指標、入院記錄等海量數據的分析,運用機器學習建模技術, 成功地在短時間內構建了 AUC 達 0.846 的模型。該結果成為了醫院管理者分析並控制再住率的有效依據,大幅降低了出院病人的再入院成本,還可以給予患者更適合個人的醫療選項,提升患者的治療體驗。

除此之外,R2 Learn 2.0 還將全生命週期管理的概念首次植入到了機器學習自動化領域中。黃一文談道:「大部分企業現在主要關注的問題還是怎樣建出更​​好的模型,但實際上模型的運營也是非常重要的,這就會涉及到模型的全生命週期管理問題。」

任何機器學習模型都是基於歷史數據開發出來的,而歷史數據反映的是過去的商業狀況,所以模型其實是有保鮮期的。

「企業應該時刻監督模型在實際應用當中的性能,並不斷用新的數據去實時優化舊的模型,這樣才能為模型『保鮮』。」黃一文如此建議。

業務問題,而不只是機器學習

「我們希望企業可以用 98% 的時間來解決業務問題,而不是機器學習問題」,談到整個人工智慧和數據行業的未來發展時,黃一文這樣說道。「技術最終是服務於業務的,所以我認為機器學習工具的發展方向是讓用戶更快更有效地解決業務問題,與商業更好更深結合。」

外媒 Interesting Engineering 在報導 R2.ai 這家近年來快速增長的公司時使用了「new generation(新世代)」一詞,我們也確實看到 R2.ai 為人工智慧在應用當中從 0 到 1 的落實邁出了堅實的一步。

「企業落實人工智慧基本上可以有兩種方法,第一種是基於系統規劃,企業通過採集大量數據,搭建基礎設施,一步一步地落實人工智慧。而另外一種更推薦的方式則是先用現有的數據找到一個可以落實的場景,從小到大,而不是從大到小地開始建模。這樣能大大降低人工智慧落實的成本,也給企業更多的正反饋來進一步應用人工智慧」。黃一文為我們補充道。

那麼,數據科學家會失業嗎?

社會自動化水準的提高讓我們不得不面對嚴峻的就業形勢,人工智慧的廣泛應用更是讓大量行業的從業者面臨著失業危機,在談到數據行業從業者的職業問題時,黃一文樂觀地與我們分享道:「從歷史上來看,人類文明中每一個新技術的出現往往伴隨著新行業的出現;自動化水準的提高往往伴隨著新工作機會的出現,失業率不但不會提高,甚至還有可能降低。」

人工智慧行業的發展速度往往給人一種日新月異的感覺,但談到未來發展時,黃一文卻顯得很自信:「其實有很多技術我們在研究室當中已經做出來了,比如非監督學習,很快我們的用戶就可以在群聚、異常檢測、推薦等業務場景下應用自動化的機器學習了。」

另外,目前的 R2 Learn 2.0 平台還只支持結構化的數據,在採訪的最後黃一文也表示將在未來一年著手支持自然語言處理和計算機視覺的應用場景,將非結構化數據的處理也納入到 R2 Learn 2.0 的自動化範疇之內。

「現在有很多人發表言論說人工智慧也許會摧毀人類文明。我認為他們的思維是局限在有限的生存空間內的,但事實上我們所處的世界遠遠不止我們現在所了解的範圍,AI 最大的存在價值之一就是它能夠幫助我們去探知未來的世界。」

黃一文繼續說道:「R2 Learn 2.0 就是一個泛用性很強的 AI,未來我們想做的就是幫助企業去探知更多他們還沒有了解的世界。中國人講 授人以魚不如授人以漁 ,當人人可用的 AI 出現之後,企業一定能更深入地理解業務,不斷開拓新的業務邊界。」

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈用 AI 創造 AI,人工智能無代碼時代來臨 〉。首圖來源:Pixbay CC Licensed)

延伸閱讀

AI 演算《冰與火之歌》誰能活過最終季?龍女、小惡魔的生存率高達 97%
一個「值得信賴 AI」長什麼樣子?歐盟發佈 7 條人工智慧的道德準則
IBM AI 神預測員工離職機率:正確率 95%,年省 9 億台幣留才費!


摩爾定律會被改寫嗎?

半導體關鍵一戰開打在即,台灣如何佈局國際分工優勢? 馬上報名 12/8《2019 未來科技展 》半導體論壇

點關鍵字看更多相關文章: