【動口不動手的時代即將來臨】Google、亞馬遜、蘋果,誰才是語音互動領域的霸主?

【我們為什麼挑選這篇文章】過去,人與機器互動的方式主要仰賴將指令輸入電腦;後來,發展出透過觸控螢幕來操作機器的形式;而現在,人機互動的方式愈來愈類似人與人之間的互動:就像與朋友相處一樣,我們已經可以直接跟機器「對話」了。

所有與機器的對話,都建立在語音互動(voice interaction)相關技術的基礎上,因此這塊領域也成為科技巨頭的的兵家必爭之地,這些頂尖科技公司已經個個摩拳擦掌,準備搶佔語音互動領域的主導權了。本文深度分析 Google、亞馬遜等巨頭在產業生態圈裡的布局。(責任編輯:曾宜婷)

作者/《聲學在線》 主編常樂

美國調查公司 VoiceLabs 在本年初發佈了《2017 年語音報告》,報告中對目前美國智慧語音市場進行了調查,特別是亞馬遜 Alexa 和 Google Home 的開發者和消費者。報告中預測 2017 年將有 2450 萬台以語音為主要對話模式的智慧硬體產品發貨,市場總量將達到 3300 萬台,市場規模超過 200 億美元。

語音為主的智慧硬體產品

隨著亞馬遜的智慧喇叭 Echo 銷量逼近千萬,蘋果的智慧耳機 AirPods 登頂美國無線耳機市場榜首,亞馬遜 Alexa 在美國 CES 展上大放異彩,國內各個科技公司也紛紛開始了進入語音互動領域。

無論是 IT 科技巨頭阿里、百度、騰訊、科大訊飛等,還是陸續出現的思必馳、聲智科技、雲知聲、三角獸、驀然、Rockid 等創業公司,智慧語音產品和語音助手成為競相追隨的熱門話題,儼然形成了一股全行業研究亞馬遜 Echo 的熱潮。根據聲智科技提供的資料,國內已經有超過 200 多家公司正在研發類似 Echo 的智慧喇叭。

然而,就在國內科技公司還在模仿 Echo 之時, 國外的科技巨頭已經開始進一步搶奪全球語音互動市場的控制權。無論是行業標準的定制,還是戰略專利的佈局,抑或是音訊資料集的開放,以及各種產業生態聯盟的搭建,一切都在悄然的進行中。

智慧語音互動的行業標準之爭拉開帷幕

3 月 6 日,微軟在其官網上發佈了新版本的語音平臺測試標準,即 2.1 版本。微妙的是,就在微軟發佈消息的同時,我們驚喜的發現,亞馬遜的官方網站上也已經推出了其語音測試的最新標準,智慧語音互動的行業標準之爭已經開始「漸入佳境」。

微軟指出,目前語音平臺支援 Windows 10 中的所有語音體驗,如 Cortana 和 Dictation,而其最新的測試標準適用於所有使用微軟語音平臺的聲音輸入裝置。其中,直接影響的設計參數,包括語音辨識精度和語音處理演算法的性能。目前,微軟還沒有把該測試標準作為設備認證必不可少的環節。然而,隨著測試標準日益規範化,平臺用戶數增多,未來的結果一切都不言而喻。

測試環境搭建圖

區別於微軟,亞馬遜也為其所有採用 Alexa 開發的智慧語音產品設立了相應測試標準,然而,此測試並未公開,還是採用黑盒測試的方式,使用者需提交產品給亞馬遜進行相應測試。其產品通過認證測後,搭載 Alexa 的智慧語音互動產品才可獲得 Alexa 認證,並在 Alexa Smart Home 商店出售。

目前通過測試獲得認證的企業

語音互動市場專利佈局競爭更為激烈

一直以來,一旦掌握行業標準制定的主導權也就掌握了整個市場的控制權。與其有同樣魅力的便是專利。當今的激烈市場競爭中,專利早已經成為市場競爭的一柄利劍。

從 1 月 19 日國家智慧財產權局公佈的資料顯示:過去的 2016 年,我國國家智慧財產權局共受理發明專利申請 133.9 萬件,同比增長 21.5%,這已經是我國第 6 個年頭專利受理量居世界首位。同時,國外專利的申請情況也保持良好的增長勢頭,2016 年通過《專利合作條約》(PCT)途徑提交的國際申請 4.50 萬件。然而,雖然專利整體保持良好的發展態勢,但是,在語音互動領域國內的專利佈局與國外尚存差距。

眾所周知,語音互動涉領域廣泛,是一門多項技術融合的交叉學科,涉及到信號處理、模式識別、概率論與資訊理論、發聲機理和聽覺機理、神經網路,語音辨識,機器學習等。其中,語音以及音訊的編解碼(G10L),電數位資料處理(G06F),電話通信(H04M),這三個領域專利累積數量最多,比例高達 80%。

從德溫特世界專利索引資料庫平臺收錄的自 1963 年以來全世界 40 多個專利機構的基本發明的資料來看,語音辨識的相關專利約 2 萬件。

根據 CNKI 自 1985 年後收錄的中國專利的資料來檢索關鍵字語音辨識情況

其中,截止到 2015 年,僅「語音辨識」累積專利申請量方面來看,前五位的為 IBM,NEC,微軟,Nuance 和東芝,分別為 749 件,508 件,506 件,415 件,406 件。而從 2010 年至 2015 年的語音辨識專利的申請量來看,除了 IBM 被 Google 替代,降至第 7 名,其他幾位仍然保有專利數量的優勢,排名順序是 Nuance,Google,微軟,東芝,NEC,分別為 206 件,178 件,141 件,102 件。

巨頭形成的專利防禦攻勢仍然迅猛,而業界所關心的後起之秀也來勢洶洶,2010 至 2015 年,僅「語音辨識」方面,Google 佈局專利 178 件、蘋果佈局專利 25 件、亞馬遜佈局專利 33 件。

對於國外的科技公司來說專利之間的鬥法更加劍拔弩張,專利壁壘正在逐漸形成。從《中國智慧財產權報》發佈的資料來看,截止至 2017 年 1 月,蘋果公司在語音領域的專利申請量為 695 件,而 Google 公司為 1261 件。從語音領域專利佈局方面看,兩家公司在語音領域的技術除了自主研發外,還通過並購語音類相關企業或者收購語音技術相關專利來加強專利儲備。

2013 年蘋果公司收購語音辨識公司 NovaurisTechnologies。經過收購,蘋果公司獲取了該公司的 4 件語音專利。通過這 4 件專利,蘋果 Siri 由可通過簡單識別單個詞句來理解上下文,發展到通過識別超過 2.45 億個短語來輔助理解上下文的功能,從而大幅度提升語音系統的理解力。

為了應對蘋果公司帶來的激烈競爭,Google 公司採用了專利「圍剿」戰術。2013 年,Google 公司收購了 Wavii 公司的一件專利,該專利技術使得 Google 公司的語音搜索識別正確率提高了 25%。同年,又收購了 SR Tech Group 公司的兩件關於語音辨識的專利,並購入雅虎公司的一件名為「背景會話內容相關式搜尋技術」的專利,通過購買專利,Google 公司擁有了完整的語音辨識引擎。

目前,中國的語音辨識企業專利佈局還主要是在國內,國際領域的專利佈局情況和國外企業對比,確實還存在巨大差距。不過,國內企業的智慧財產權意識也越來越強烈,百度,科大訊飛,聲智科技等在近幾年的專利申請上也有不錯的作為。

對比於市場銷量帶來的直接經濟效益,智慧財產權的價值還不能充分體現。然而,在提高公司效益,搶佔市場,保持公司可持續發展時,智慧財產權的價值不可小覷,專利作為企業不得不向公眾透露以獲取獨佔權的關鍵資訊,對其進行詳細、周密、綜合的分析,可以從中獲得巨大的商業價值,特別是在國際市場競爭中。

Google 開放音訊資料集,用意不言而喻

3 月 8 日,Google 開放了一個大規模的音訊資料集 AudioSet。該資料集包含了 632 類的音訊類別,收集了 2084320 條人工標記的每段 10 秒的 YouTube 視頻中的音效片段片段(包括 527 個標籤)。

這些特定音訊是使用基於中繼資料,上下文(例如,連結)和內容分析的搜索來標記的。聲音內容十分廣泛,包括人類的聲音和動物的聲音,各種類別樂曲的聲音和每天日常環境中的各種聲音等。Google 聲稱:此次開放這個資料庫的目的就是為了滿足學術研究的需求。

從此前 ImageNet 廣泛資料集的開放效果來看,大部分識別圖像中的目標研究已經從中獲益。而此次,對於利用 AudioSet 公開資料集訓練機器學習模型的語音辨識研究者或者技術公司來說,無疑是獲益匪淺。然而目前,國內的科技巨頭還沒有開源音訊資料集的動作,哪家公司可以有魄力的貢獻資源,我們還要翹首以待?

組建產業聯盟,試圖瓜分市場蛋糕

毫無疑問,通過語言交流獲取知識是人類最有效的學習方式。 從 PC 時代的鍵盤滑鼠過渡到移動互聯網的觸屏操控,下一個 AI 時代,無疑將會是以語音、體感等多種感知融合的新的獲取方式,而語音互動作為天然的人機交互入口,勢必是對資訊生態與未來生活的一種重構。

誠然,語音互動涉及了非常複雜的技術鏈條,包括了聲學處理、語音辨識、語義理解和語音合成等核心技術。需要產業鏈上下游相互合作,需要產業夥伴相互合作。目前,美國頂尖的科技公司,英特爾、ARM、Google、亞馬遜、Facebook 等都紛紛牽頭成立了自己的產業聯盟。

隨著智慧語音互動領域不斷發展,國際化的競爭也會日趨激烈。如何積極搶佔全球智慧語音互動的主導權?必然是組成產業技術創新聯盟,把握國際標準的制定、積極做好專利戰略佈局,才能緊抓國內外同步創新的契機,不再重複 PC 和移動互聯網時代的遺憾。

延伸閱讀

【AI 語音助理又添一角】除了亞馬遜的 Alexa 和蘋果 Siri,你也該認識 LINE 的 Clova
深度解析:亞馬遜語音服務 Alexa 如何靠「軟硬結合」讓 Google 看不到車尾燈?

(本文經原作者常樂授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈從競相仿製 Echo 的熱潮中反思,為什麼國外巨頭要佈局 AI 交互的標準、專利、競賽和聯盟?〉。首圖來源:Crosa,CC Licensed)


確保台灣半導體優勢!

掌握世界變局下的半導體創新商機 馬上報名 12/8《2019 未來科技展 , 台積電、ARM 講者同步分享!

點關鍵字看更多相關文章: