圖片來源:flickr

看圖回答問題是人類生活及溝通的基本條件,但是對 AI 來說卻是一項高難度任務。

阿里巴巴達摩學院打造出來的 AI 語言模型 AliceMind,幾天前首度打破圖像問答(VQA)世界紀錄,答題準確率甚至超越人類基準,並且擊敗同樣有參加挑戰的微軟、FB 隊伍,象徵達摩學院的人工智慧技術邁出關鍵一步。

VQA 挑戰是什麼?

圖像問答(Visual Question Answering)挑戰的緣起,是因為國際電腦視覺與技術辨識大會 (Conference on Computer Vision and Pattern Recognition,CVPR)希望鼓勵企業攻克 AI 多模態機器學習(MultiModal Machine Learning)的難題,因此從 2015 年開辦 VQA 挑戰賽,吸引來自世界各地的網路企業、科研單位參賽。

今年的 VQA 挑戰賽和往年一樣,題庫包含了超過 25 萬張真實照片,總共有 110 萬道題目。這些題目會考驗 AI 是否能辨別圖像,比如說在一張人群的照片中算出有幾個兒童、或是在圖片中辨認出書桌上的車鑰匙,進而推測房間主人是有車的。

VQA 技術已經被廣泛導入阿里巴巴平台,像是它的 AI 客服機器人「小蜜」(Alime)就已經被淘寶、天貓商家等電商平台採用。消費者輸入問題後,AI 客服會根據商品資訊和顧客問題給出答案。

另一方面,VQA 技術不僅能運用在電商,還可用於醫學圖像辨識,以及電動車的智慧駕駛分析。

♦ TO 推薦閱讀:導入 Appier 精準行銷,cama café 用 AI 為顧客量身打造天氣專屬咖啡!

阿里巴巴的 AI 模型為何成績能夠超越人類?

這幾年人工智慧(AI)逐漸滲透到各行業,也推動更多科技革命,AI 技術逐漸成為企業數位轉型、對抗疫情,並讓經濟重返正軌的重要力量。

由阿里巴巴達摩學院打造的 AI 深度語言模型系統 AliceMind 在這次的 VQA 測驗中,答題準確率拿到 81.26%,首次超越了人類答題的準確率 80.83% ,更馬雲投資的達摩學院在 AI 發展上取得重大進展。

AliceMind 採用了多種專有技術,包括多樣化的視覺表示(diverse visual representations)、「多模態」預訓練語言模型(multimodal pretrained language models)、「跨模態」語義融合和對齊技術( adaptive cross-modal semantic fusion and alignment technology)。這些技術不僅可以讓阿里巴巴的 AI 理解問題並分析圖像,還可以讓 AI 用近似人類的語感回答問題。

♦ TO 推薦閱讀:2022 北京冬奧會,裁判不只人類!新創獨角獸「小冰」憑什麼能當上 AI 助理裁判?

阿里巴巴達摩院自然語言處理(NLP)負責人 Si Luo 表示:「這代表我們在『機器學習』領域又取得了一個重要里程碑,AliceMind 在視覺與文本的『多模態』理解及推理上,測試分數媲美人類認知水準,彰顯了我們研發 AI 的努力成效。」

打造出這款 AI 模型的達摩學院是什麼來歷?

2017 年,馬雲認為阿里巴巴應該要把眼光放遠,致力解決未來世界經濟、社會等問題,在此願景下成立了研究單位「達摩學院」( DAMO Academy),號稱要在 3 年投入超過 1000 億人民幣,將重點放在基礎科學和顛覆式技術創新研究上。

Si Luo 表示,人工智慧分為運算智慧、感知智慧、認知智慧及創造智慧 4 個層次。這次 AliceMind 參與的 VQA 測試內容屬於認知智慧部份。

♦ TO 推薦閱讀:【Google 2021 I/O 大會亮點】關於 AI 與優化搜尋,今年的大神推出什麼好菜?

負責人也補充說,這不代表有一天我們會被機器人取代,反而這些智慧機器可以用來輔助我們的日常工作和生活,因此人們可以很專注在他們擅長的創作上。

參考資料:Computer Weeklyitbrief