【GitHub 已開源】IBM 機器學習框架 CodeFlare,把 AI 模型訓練流程從 4 小時縮短為 15 分鐘!

首圖來源:Shutterstock

IBM 於近期推出了全新無伺服器的開源框架 CodeFlare,幫助開發人員減少在混合雲環境中部署 AI 模型所花費的時間,此框架目前已在 GitHub 上開源。

使用 CodeFlare 後,減少 94% 機器學習模型 Pipeline 執行時長

對於企業而言,訓練出一個機器學習模型從來不是主要的瓶頸 — 那什麼才是呢?

在生產環境中的持續營運、構建完整的人工智慧系統,達成規模化落地,而且中間沒有任何重大的斷層,這才是真正的挑戰。然而,企業為了隨時因應新需求來部署機器學習解決方案,經常只能不斷重寫實驗程式碼來迭代,但這種方法是模棱兩可的,在不具備 MLOps 的概念之下,成功機率更低。

據 IBM 表示, 用戶使用 CodeFlare 框架分析和優化大約 100,000 個用於訓練機器學習模型的 pipeline 時,可將 執行時長從原本的 4 小時大幅縮減到短短 15 分鐘

資料科學和機器學習分析,在各個垂直領域的需求正在激增,任務也變得越來越複雜。隨著資料集越來越大,涉及的系統也變多,使得 AI 研究人員和開發人員得花更多時間配置在模型設定上,要創建一個機器學習模型,必須還得進行數據清洗、特徵標準化、特徵提取等耗時、耗力、多重的前置作業,才能進行訓練優化。

而 CodeFlare 存在的目的,就是要簡化 AI 迭代過程,讓數據工作流程更容易規模化進行。 CodeFlare 框架主要是建立在 Ray 之上 — Ray 是加州大學柏克萊分校 RISE 實驗室為 AI 應用程式開發的開源分佈式計算系統,也是源自 IBM 集團的一個項目,透過該項目也創建出了世界上第一個原型 2 奈米晶片。

延伸閱讀:
IBM 搶先發表 2 奈米技術,台積電還是晶圓製造領域的南波萬嗎?

IBM 框架 CodeFlare 介面基於 Python,具三大特點

IBM Research 混合雲平台總監 Priya Nagpurkar 透露:「CodeFlare 採用了簡化機器學習的概念 … 更進一步把每個孤立的步驟串聯起,將端到端 pipeline 與資料科學家熟悉的介面無縫整合 — 比如 Python,而不是容器(container)。CodeFlare 使用了統一的 runtime 和程式接口,有助於簡化 pipeline 整合和擴展的過程,展現與眾不同的效能。」

具體來說,CodeFlare 擁有以下三大特點:

1. 基於 Python 的介面,可用於管理跨平台的 pipeline,且 pipeline 可以在大多數計算環境中共享資源、進行平行化運算。透過轉接器與其他雲原生生態系統整合和銜接,形成橫向分佈式工作流程,開發人員也不必為了維護管理而去學新的語言。

2. 觸發器功能,使 CodeFlare pipeline 能夠在發生某些特定事件(例如有新文件抵達)時被啟動,同時,可從任何來源載入和分割資料,讓 pipeline 能夠有效去運用一系列數據源,包括文件系統、物件存儲、數據湖和分佈式文件系統。

3. 可以部署在任何雲基礎架構上,透過和 Red Hat OpenShift 和 IBM Cloud Code Engine 的整合,實現了無伺服器的體驗,並供用戶在任意平台建立工作流程,具備拓展無伺服器服務的好處。

圖片來源:IBM

從廣泛角度來看,CodeFlare 的概念類似於 Amazon SageMaker Pipelines,聚焦在從雲儀表板自動化、組織機器學習 pipeline 的流程,而 Google、微軟和 Hybernet Labs 則是分別在 Cloud AI Platform Pipelines、Azure Machine Learning Pipelines 和 Galileo 中提供了相似的服務。但 IBM 強調,CodeFlare 結合了本地和雲端基礎架構,是從本地端開始構建來支持混合雲的

「該框架背後的動機,是為了收攏工作流程,還有為了完美結合人工智慧、機器學習、資料分析和建模」,Nagpurkar 表示,「我們看到了在 runtime 之下能大幅優化管道的機會,可以有效管理和改善數據依賴性(data dependencies)、執行控制性(execution control)。」

CodeFlare 已開源,降低企業 AI 部署混合雲難度

目前 CodeFlare 已在 GitHub 開源,IBM 也提供了一系列有關其工作原理,以及開發人員入門所需的技術部落格文章。展望未來,IBM 計劃繼續發展 CodeFlare,來支持更複雜的 pipeline 和功能,例如容錯和一致性、外部資源的整合和數據管理,以及強化對視覺化管道的支援。

就目前的效能來看,CodeFlare 已經可以將執行 100,000 個訓練管道的分析和優化時間,從 4 小時縮短到 15 分鐘。此外,IBM 正在與客戶合作,將 CodeFlare 整合到他們的軟體流程中,也在 IBM 自家的 AI 研究中使用此框架。

「實現一致性的體驗,以將 pipeline 從筆記本電腦擴展到小型集群(cluster)、再到雲,是 CodeFlare 的一大關注點」,Nagpurkar 補充,「我們將 CodeFlare 視為我們混合雲平台發展的關鍵下一步,對用戶的價值方面,我們必須強調,透過顯著提高效率,CodeFlare 不僅可以節省成本和時間,而且還創造了機會來解決以前由於規模或複雜度等原因、而根本不切實際的新使用情境。」

有了像 CodeFlare 這種具備 MLOps 優勢的框架,開發人員就不必一直重複相同的工作,也不需要徹底理解 pipeline 的配置,用統一介面就可使用豐富的工具和 API 一致的進行操作,把更多寶貴的時間放在研究和實際應用上,簡化配置和部署的複雜工作流程,更快速部署到混合雲,開發和部署 AI 模型的過程,又會變得輕巧許多。

參考資料:VentureBeatIBMCIOLinux 成癮者

看更多 MLOps 好文

• Google 全新代管式機器學習平台 Vertex AI,幫助 AI 模型開發的程式碼量減少了 80%!
• 【NVIDIA 進軍 MLOps】輸入極少量數據、幾小時內就能開發 AI 模型的 TAO 框架是什麼?
• 做機器學習,數據和模型哪個重要?吳恩達的「二八定律」告訴你真相


《TechTaiwan》國際版 2021 正式上線

國外都在關注台灣的哪些科技消息呢? 立即至 Facebook 按讚、Twitter 及 LinkedIn 追蹤,第一手國際趨勢、科技洞察都會在 TechTaiwan 官方網站 哦!

點關鍵字看更多相關文章: