AI 大規模應用的關鍵:ModelOps 打造「生生流轉」模型生態系

從影像辨識、語音辨識,到深度學習,各產業近年來都看好 AI 人工智慧所帶來的龐大效益,但真正能從開發走到應用的企業卻不在多數,根據 Gartner 調查,受訪企業原本預期一年之內能有 23% 的 AI 計畫完成部署,但一年後卻僅有 5% 真正被部署,究竟 AI 在落地運用上遇到什麼困境?

SAS 台灣業務顧問部陳新銓副總經理分析,初期從情境確認、資料分析到每一次模型部署上線,企業內部就需花費大量的時間溝通,而等到模型上線後,又會因為情境需求改變,甚至是日益增長的資料而讓模型執行環境變得不堪使用。

後期在 AI 模型管理上,許多企業會以為管理 AI 模型跟一般網頁一樣,只需要管理程式碼,但其實兩者間有很大的落差,網頁開發完成後就算放置不更新,基本功能也不會有所改變,但是 AI 模型卻會在開發完成後,隨著時間失去它的精準度。至於在 AI  開發與應用的細節上還有哪些常見迷思?

從實驗環境走向大規模 AI 應用 ,企業必經的 3 大挑戰

首先,陳新銓副總點出許多企業在發展 AI 時常會有一大迷思:耗費太多時間與精力在「模型建立」階段,然而根據 Google 所發表的一篇 AI 研究論文指出,團隊若想將 AI 從實驗環境走到實際應用,模型建立其實只佔整個 AI 開發的一小部分,後面還有更多架構與流程管理的「隱藏技術債」需解決。

根據 Google 所發表的 ”Hidden Technical Debt in Machine Learning Systems” 論文, AI 應用除了「建立機器學習模型」,還有更多流程與架構管理、監控任務須解決。
根據 Google 所發表的 ”Hidden Technical Debt in Machine Learning Systems” 論文, AI 應用除了「建立機器學習模型」,還有更多流程與架構管理、監控任務須解決。

再者,企業在導入 AI 應用時,通常都是從小規模專案開始進行,當有了成效後,才會進一步擴大 AI 應用的範圍或深度。陳新銓副總以某零售業者為例,起初協助他們建立 VIP 客戶最適商品預測模型,在初嚐甜頭後希望擴大規模延伸到更多客群,然而在過程中即遇到「模型數量暴增」、「機器學習團隊溝通協作不易」,和「模型準確率隨時間下降」3 大挑戰。

▪️第一個挑戰:模型數量暴增,部署時間也暴增

例如某業者想將過去「VIP 顧客最適商品預測模型」進階應用到「各類型顧客的最適商品預測模型」,假設簡單把顧客分成 10 種客群,商品品項總共有 20 種,每一種客群或品項都要運用至少 5 種機器學習演算法,以便從中找出冠軍模型,資料科學團隊就會從過去僅須建立 1 種模型,暴增到需要建出 1,000 種預測模型,才能滿足預測需求情境!

某業者希望將「VIP 顧客最適商品預測模型」進階應用到「各類型顧客的最適商品預測模型」上,卻因遇到模型數量暴增,部署難度提升的困境。
某業者希望將「VIP 顧客最適商品預測模型」進階應用到「各類型顧客的最適商品預測模型」上,卻因遇到模型數量暴增,部署難度提升的困境。

同時,模型數量增加,工作時間也會增加,如果依照先前建立 VIP 客戶預測模型須花費 1 年時間的規劃,想完成 1,000 個模型可說曠日廢時,對企業來說是不可行的投資。

▪️第二個挑戰:當團隊人數增加,跨部門人數多、溝通協作不易

當然,透過增加資料科學團隊的人力也是一種解方,但在實際執行時就會面臨到第二個挑戰:溝通問題,原本從資料準備、模型訓練、再到模型部署等工作,幾乎都是同一個資料科學家負責,但隨著團隊規模擴大、分工越來越細,這些工作可能由資料工程師、資料科學家、架構工程師跨部門協作,在溝通與協作上就容易出現問題。

▪️第三個挑戰:模型數量增加,後續監控、訓練的人時成本也提高

最後第三點是模型準確率問題,隨著時間、社會趨勢、人生階段…等變化,顧客的喜好很可能會跟著改變,導致模型的準確率下降,需要重新訓練。雖然重新訓練不像開發需要 1 年,但也得花上 3~6 個月時間,如果同時監控 1,000 個模型,並讓它們都維持在最佳狀態,需付出相當大的時間成本。

AI 成功落地的最後一哩路,將「開發」到「部署」流程自動化!

從上述三大挑戰可以發現,AI 應用的成功關鍵,在於開發後的「部署」維運管理,當模型準確率下滑時,必須能隨即重啟訓練機制,讓它達到「生生流轉」的效益。

陳新銓副總建議企業可以建立 ModelOps 運作流程,以基於 DevOps 的方法,讓「模型分析部門」、「IT 維運技術部門」和「前端業務部門」之間從開發、部署到營運的流程做到「標準化」與「自動化」,加速 AI 服務上線的時間。

ModelOps 流程納入 CI/CD 概念,使得模型從建構、測試、到發布能夠更加快速,同時藉由 API 串接,讓資料分析、IT 到業務部門得以快速協作。
ModelOps 流程納入 CI/CD 概念,使得模型從建構、測試、到發布能夠更加快速,同時藉由 API 串接,讓資料分析、IT 到業務部門得以快速協作。

面對 AI 擴大應用所面臨的困境, ModelOps 流程可做到 CI/CD(持續整合 Continuous Integration /持續部署 Continuous Deployment),使得模型從建構、測試、到發布能夠更加快速、頻繁和可靠。同時,再仰賴「自動化機器學習(AutoML)」建立模型,將成功與失敗的資料進行即時回饋修正,協助模型縮短開發與重新訓練所需的時間。

以上述業者為例,在導入 ModelOps 流程後,他們把「成功預測」與「顧客未接受」等資料回饋到訓練資料庫當中,並讓每個預測模型能自動根據新資料,重新訓練與學習客戶多變的喜好。也因為這樣的自動化機制,讓整體模型更新的時間,由 3~6 個月縮短至每天,且當模型健康度低於一定程度時可以發出警示,隨時以最新的預測模型服務客戶,滿足大規模 AI 模型開發的需求。

如果你開始考慮建立一個 ModelOps 流程,以下是建造的重點三要素:

▪️要素一:能將工作流程自動化與標準化,加快跨部門協作

每次 AI 模型部署上線,都會需要分析部門與 IT 技術部門花費大量時間溝通,以及跨部門主管的審閱,唯有透過 API 串接不同程序,將作業流程自動化,得以有效降低跨部門溝通障礙、加速主管作業時間。

▪️要素二:有 AutoML 功能,讓資料科學技術平民化

面對與日俱增的資料分析與建模需求,如果能讓前端業務單位,也能有基礎資料科學的概念與技能,檢視與回饋資料,不必再經過資料科學家統整處理,就能加快 AI 模型的重新訓練時間,此時具備 AutoML 功能的平台將是解方之一。

▪️要素三:模型監控與管理功能

可將正式營運環境中所有 AI 模型集中在單一平台進行監控與管理,有助於企業掌控現有環境究竟存在哪些模型、準確度是否依舊,避免健康度低的模型降低資料科學價值。

架構在雲上的 ModelOps 流程 ,讓成本投資最佳化

最後,儘管 ModelOps 流程能將模型開發部署的流程自動化與標準化,加速跨部門的協作,但隨著資料量越來越大,陳新銓副總提醒「開發成本」也必須納入平台選擇的考量。

「企業在評估 ModelOps 流程時,最好還要考慮是否具備隨需求調整運算資源的能力」。換句話說, ModelOps 流程最好能在雲端環境上運行,因為模型在訓練和執行時,可能因為企業營運的淡旺季之分,導致所需求的運算資源量不一樣,而架構在雲端環境裡,才能讓企業根據需求彈性調整,避免旺季不敷使用或淡季閒置浪費的問題,讓 AI 投資的每一塊錢都能花在刀口上。

(本文提供合作夥伴轉載。首圖來源:Shutterstock)

更多企業應用 AI 實例

金融業佈局「數位創新」新指標:智慧部署「詐欺內控」!
後疫情時代零售業的重生之道,如何提高需求預測準確度?
僅 5% 企業會解讀數據!你該如何掌握「高效決策」的根基?


點關鍵字看更多相關文章: