【你看得出他是假人嗎?】三星用 AI 開發虛擬人 Neon,逼真程度堪稱跨越「恐怖谷」

【為什麼我們要挑選這篇文章】未來即將誕生「不只是助理,而是朋友」的 AI 人造人,它們可以幫助人類完成特定任務,例如:教你做瑜珈、成為你的財務顧問。

這種新的 AI 人造人跟智慧語音助理非常不同,它們擁有自己獨特的性格,且跟人類一樣會感到疲憊,其逼真程度堪稱跨越「恐怖谷」!究竟這種 AI 人造人是什麼神物?它背後的技術跟能力又有哪些?(責任編輯:陳美羽)

栩栩如生的眉眼、自然律動的嘴唇、舉止逼真的動作 ── 這些人物看上去就像真人拍攝的畫面,但其實是電腦生成的影像。

這是 Neon,三星旗下子公司 STAR Labs 在 CES 2020 上發布的「人造人」專案。

逼真到跨越恐怖谷,要成為能與人互動的「朋友」

只不過,它沒有實體,而是以真人尺寸存活在螢幕中。三星在 CES 展區展示的預期效果極其逼真,足以跨越恐怖谷,讓 Neon 成為了今(2020)年 CES 的話題中心之一。

三星在 CES 的展區展示 Neon 的預期效果

之前也有類似的數位人,比如數位王國製作的數位鄧麗君,以及搜狗和新華社聯合製作的 AI 合成主播。但它們的定位更加功能性,而三星把 Neon 塑造得更具人性,不惜犧牲功能性來塑造人性。

搜狗和新華社聯合製作的 AI 合成主播

STAR Labs 希望 Neon 有著像人一樣言行舉止和智慧程度,它的定位不是舞台上的明星,也不僅是新聞直播間的替班,而是可以和人類直接互動的「朋友」。

每個 Neon 都有自己的個性,但定位和智慧語音助理無關

在 STAR Labs 的設定中,Neon 能張口和人對話交流,並且在和人的互動中,持續學習對方說話做事的方式,以做出更加自然的回應,就好像一個真正的朋友。

「Neon 就像我們一樣,是一個獨立的個體,但身體是虛擬的。」STAR Labs CEO Pranav Mistry 介紹說:「每一個 Neon 都是獨一無二的,有自己的個性。」2019 年 10 月,Pranav Mistry 成為了 STAR Labs 的 CEO,此外他曾工作過的專案有微軟 Xbox、Galaxy Gear 手錶以及 Gear VR。

在這樣的設定下,每個 Neon 都有自己獨特的記憶。用戶每和一個新的 Neon 對話,都像交新朋友那樣,一切重新開始。

聽起來就像增加了實體形象、更加個性化的智慧語音助理,但三星強調說,Neon 的定位和智慧語音助理無關,它和 Siri、小度以及 Bixby(三星自己的語言助理)不是同一類產品。Neon 無法告訴你,今天天氣怎麼樣,或者亞伯拉罕.林肯什麼時候去世的。

三星強調 Neon 和 Bixby 沒有任何關係

每個 Neon 各有特長,協助人類完成特定任務

STAR Labs 希望它能扮演一些職場中的專業角色,幫助人類完成一些需要接觸人的任務,比如瑜伽老師、財務顧問、門童、電視新聞主持人,甚至電影演員。

「Neon 不是全知全能的,每個 Neon 都有自己的特長。比如,你可以讓擅長瑜伽的 Neon 教你練瑜伽。去馬德里旅遊時,你可以讓另一個會講西班牙語的 Neon 幫你交流。」Pranav Mistry 說。

跟人一樣會感到疲倦

Neon 提供服務的方式也很特別。個人用戶通過訂閱的方式獲得 Neon 的服務,企業用戶要像僱傭人類員工一樣僱傭 Neon,而且不能指定 Neon 的個性,就好像企業不能指定人類員工個性一樣。

甚至,Neon 會像人類員工一樣感到疲倦,因此它不能像智慧語音助理一樣 24 小時不停地工作。

總而言之,Neon 不是智慧語音助理,而是一個有自己個性和特長的虛擬人類。

兩大核心技術:Core R3 及 Spectra

Neon 是一個有野心的產品,它可以讓人聯想到很多影視劇裡的 AI 角色,比如《Her》裡面的薩曼莎。問題在於,三星 SRAR Labs 是怎麼實現這個科幻電影般的角色的?

首先,Neon 需要模擬出跟人一樣的外表。在接受外媒採訪時,Pranav Minstry 說,Neon 可以從無到有生成一個虛擬人,但沒有解釋具體的實現原理。

他只是在發布活動上籠統地介紹了 Neon 背後兩個的核心技術:Core R3 以及 Spectra。Core R3 的「R3」代表了 Reality、Realtime、Responsive,負責讓 Neon 快速響應用戶的對話以及像人一樣自然地說話做事。Spectra 負責智慧、學習、情感和記憶。

技術可能參照 AI 虛擬主播,但背後仍是個謎

搜狗的 AI 虛擬主播技術是一個可以參照的對象。首先由真人主播錄製一段播報新聞的影片,然後基於這段影片將真人主播的聲音、唇動、表情動作等特徵進行提取,接著通過語音合成、唇形合成、表情合成以及深度學習等技術,複製出 AI 虛擬主播。

合成過程有兩個難點,一個是唇形合成,一個是聲音、唇動、表情的協調匹配。唇形合成是三維的,比技術原理相似的語音合成要難得多,而且還要和聲音、表情匹配在一條時間線上。

簡而言之,三星並沒有在技術實現上透露太多訊息,Neon 依然是個謎。

Neon 目前表現遠達不到宣傳效果

三星通過宣傳給了外界極大的期望,但 Neon 目前的實際表現還達不到宣傳的高度。

展館所展示的動畫,都是預渲染的,人物動作也是循環播放的。甚至,這些預渲染的畫面,都不是 Neon 目前的真實效果。據外媒報導,三星證實展區以及宣傳物料中展現的情景都是虛構的,只是作為說明用途。

三星在 CES 的展區展示 Neon 的預期效果

外媒記者實測,對話能力不如智慧語音助理

有外媒記者親身體驗了一下和 Neon 互動。令人意外的是,他不能直接和 Neon 進行對話,而是要由一個工作人員把他的話複述一遍。記者問了 Neon 幾個簡單的問題,Neon 有的回答不錯,有的回答則不太像人類反應。

比如問:「你最喜歡的食物是什麼?」,它的回答是披薩。問:「你喜歡足球嗎」,它能模擬人類的語氣回答:「不~完全不。」但接著問:「為什麼不(喜歡足球)?」,它完全接不上話。

這說明,Neon 還沒有根據上下文進行持續對話的能力。而這個能力已經在很多智慧語音助理上實現了,比如 Google Assistant、亞馬遜的 Alex 和百度的小度。

在整個對話過程中,Neon 的反應也談不上迅速,回答前總會「思索」個一秒。Neon 和人類互動時的狀態,也沒有三星宣傳的那麼好 ── 唇動和表情配合起來不太自然,觀者甚至會跌入恐怖谷。

正如Pranav Minstry 所說,Neon 還處於非常早期的階段,甚至連測試版本都算不上。它是一個有野心的產品,但要走的路還有很長。

(本文經合作夥伴 品玩 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為〈人类还没真正地学会思考,虚拟人Neon就诞生了〉。首圖來源:品玩。)

延伸閱讀

深度學習專家 Yann LeCun:全球首位機械公民 Sophia 是場騙局,根本 BullShxt!
超逼真表情模擬機器人「SEER」登場,看完整個雞皮疙瘩掉滿地啊
機器戰警時代來了?美警開始用 Spot 機器狗執法,引發濫用爭議