深度解析:亞馬遜語音服務 Alexa 如何靠「軟硬結合」讓 Google 看不到車尾燈?

【我們為什麼挑選這篇文章】今年 CES 展上最大贏家莫過於亞馬遜的語音助手 Alexa,雖然沒參展,卻是許多智慧硬體設備採用的技術。雖然各科技巨頭都在發展智慧語音設備,Alexa 卻遙遙領先,這篇文章解析了 Alexa 成功的關鍵。(責任編輯:黃筱雯)

2017 年國際消費類電子產品展覽會(CES,International Consumer Electronics Show)落幕,亞馬遜語音助手 Alexa 大出風頭。參展的眾多智慧硬體設備都內嵌了 Alexa 語音功能,比如:

  • 智慧家居類:惠而浦家電、三星掃地機器人、GE 智慧燈、LG 智慧冰箱、聯想智慧音箱;
  • 機器人類:LG 家庭機器人、優必選機器人;
  • 汽車類:福特車載信息娛樂系統、大眾車載系統 ;
  • 手機類:華為美國版 Mate 9 手機;
  • 可穿戴類:Martian 智慧手表、Onvocal 智慧耳機,等等。

亞馬遜副總裁 Mike George 則宣布:Alexa 語音平台接入的語音技能已經突破 7000。這無疑是一個驚人的數字。正是有了這樣的成績,亞馬遜 CEO 貝佐斯最近在出席加州的科技會議才敢說:Alexa 有望成為公司第四大支柱

Alexa 語音技能突破 7000,意味著亞馬遜無論是在技術的積累上、還是 平台的構建上,語音的商業化應用都已經建立起絕對的領先優勢 ,一騎絕塵。亞馬遜在人工智慧領域一時風頭無兩。

在亞馬遜搶盡科技頭條時,吃瓜群眾不僅把目光投向科技頭牌——Google。

——怎麼會這樣?

——又把事情搞砸了?

——這不是 Google 的強項嗎?

語音意味著什麼?

為了把這件事說清楚,我們有必要先站在一個高度理一理語音到底意味著什麼。

人類社會有兩個最基本的事情:一是人與人之間的交流;二是人對工具的使用。當工具有信息產生和入口的作用時,就產生了人機互動的問題。微軟提供了視窗的軟體系統,改變了人類產生信息和獲取信息的方式,從而也造就了微軟這種世界頂級的科技公司。隨著互聯網的普及,信息內容的積累快速增長,怎麼找到用戶想要的內容就是使用電腦這種工具的基本需求。

Google 提供了世界級基於文本的信息整合和檢索工具,把握了互聯網信息檢索的入口。但是個人電腦時代,人類和機器交流的方式主要是通過鍵盤輸入文本來完成。這種情況下,一般要有顯示螢幕。

但是在 最近十年,人類獲取內容和服務的信息入口發生了巨大的變化 ,從個人電腦轉移到了以智慧手機為中心。從而造就了提供硬體工具及互動系統的蘋果和提供互動系統的 Google 的第二次輝煌。而電腦操作系統頭牌微軟,錯過了這次新型計算設備的操作系統機遇。

從個人電腦到智慧手機有一個最大的不同,就是人與設備的互動方式發生了根本性的變化——由借助鍵盤和滑鼠變成在一個便攜的手持獨立設備上利用手指和觸控式螢幕直接完成,這是人類使用人機互動工具的革命性進步。觸控式手機的推動和普及功臣賈伯斯,也因此成為科技界的神話。

智慧手機的普及帶來了新的信息錄入方式的普及使用——語音。 在文字沒有發明以前,人類就是用語音來交流,語音本來就是人類活動的最基本最常用的交流形式。另外,在智慧手機只有 5 寸上下的屏幕上,手指觸屏輸入也受到諸多限制,語音也是最自然的替代和補充。

由此,語音輸入法在智慧手機上得到了相對高頻的使用。另外,隨著微信、WhatsApp 社交工具的普及,用戶語音輸入的使用習慣也已經得到很好的培養。也由於智慧手機的普及使用,海量的語音數據收集也成為現實。

與此同時,深度學習的出現也使語音算法處理大規模語音信息成為現實,語音技術已經基本可以滿足消費級多場景下的產品應用。也就是說,從硬體設備、軟體工具、算法技術、用戶使用習慣,這一切條件已經成熟多時,只待語音互動以合適的形式全面爆發!

當然,我們今天談的事情不是發生在智慧手機上。相反,亞馬遜自己做的手機 FirePhone 以暗淡收場。但是正是因為這些條件的出現,才有進一步精彩故事的發生。

基於終端大規模數據的收集和深度學習技術的出現使語音技術逐漸走向成熟, 智慧手機的普及也促啟智慧硬體時代的到來 。而生活中許許多多的智慧設備並沒有螢幕,或是螢幕不支持便捷的文字輸入,那麼語音互動就是首選,代表性的品類就是智慧家居。也有許許多多的場景不適合用手來互動,那麼這些場景下語音也是自然的選擇,代表性的場景比如駕駛。而在語音技術成熟的情況下,這一切利用語音都變得可行了。

也就是說,語音互動是下一次人機互動革命的爆發點,是人類在設備上輸入信息的新方式,語音平台是人類獲取信息的新入口。而這個新方式可適用的範圍要遠比文本大的多,也更貼近人類本來的自然互動方式。這樣可以看得見的科技革命當然是科技巨頭們的必爭之地。

亞馬遜贏在哪裡?

一個商業的成功總有個前因後果、輕重緩急,總有個內在邏輯。

絕大多數人都認為,Google 具有足夠的優勢,有技術、有資源、有積累,而實際怎麼會落後亞馬遜這麼遠呢。事實真的如此嗎?我們就來剖析一下亞馬遜語音平台 Alexa 成功的核心因素。

2.1 設備與服務

亞馬遜語音平台成功的一個最核心的地方就是處理對了設備和服務的關係。

當智慧硬體設備便攜的時候,相關的商業形態就發生了顯著變化。硬體和軟體的結合越來越緊密, 硬體帶服務的商業模式也越來越常見 。對於在和硬體設備關聯比較強的領域來說,軟硬體是不是結合和統一,甚至可能決定生死。在人工智慧領域,和新技術產品品類上,這一點可能更重要。

在踐行設備和服務結合的商業理念中,恰恰亞馬遜是做的最早而且最成功的之一。 沒錯,就是 Kindle。亞馬遜早在 2007 年就發布了第一代電子書閱讀工具 Kindle,也就是和第一代 iPhone 的發布在同一年。是由亞馬遜旗下的 Lab126 部門在 2004 年開始研發,後來亞馬遜的智慧硬體設備都出自這個部門。也就是說,亞馬遜早在 2007 年就有設備帶服務的成功商業模式探索,而且有自己完整的軟體和硬體團隊。

如果從當時的商業環境來考慮的話,亞馬遜做硬體其實很好理解,我提供一個方便合適的閱讀工具,讓用戶方便使用內容。因為那時候並沒有平板電腦這種工具,而筆記本用來閱讀又遠沒有 Kindle 方便。這種設備帶服務的方式使亞馬遜大獲成功。

而亞馬遜做語音服務首先就是研發智慧硬體設備——Echo,而且早在 2010 年就已經立項開始了。而 Echo 的成功對於亞馬遜語音服務 Alexa 的成功是決定性的。也就是說 在語音方面,亞馬遜在商業理念上領先於 Google,在實際行動上硬體研發更是早了幾年時間。所以,說 Google 在語音方面領先於亞馬遜只是一般人由於主觀印像造成的誤解。

2.2 智慧音箱 Echo 的意義

智慧音箱 Echo 對於亞馬遜的意義不僅僅是這個音箱本身,是整個語音業務成功的關鍵。

首先 Echo 的成功讓人們看到基於語音互動的智慧硬體時代的到來,這是 Echo 作為智慧硬體號角手的意義,也是榜樣的作用。再者,用戶真實體驗到了亞馬遜語音技術的真實可用,不是華而不實的噱頭。語音已經可以作為智慧硬體的互動方式,應用於不同的實際場景。

除了基本的互聯網語音服務,特別的,Echo 作為家庭智慧設備控制中樞確實真正發揮了作用,體現出了價值。通過 Echo,人與家庭智慧設備的互動可以通過語音順利完成,而且由於 Echo 優秀的硬體設計和語音技術,可以遠場語音和雜音場景下直接操控,簡單而直接,這是目前智慧手機還做不到的。也就是說,作為家庭智慧硬體控制中樞, 智慧語音音箱 Echo 對一般智慧手機有顯著的差異化優勢 。這使得在智慧手機普及的時代,Echo 除了作為音箱功能之外在智慧語音硬體方面有了市場空間,這對 Echo 的成功至關重要。

Echo 成功之後,亞馬遜開放了基於 Alexa 的軟硬體開發工具,Alexa Skills 爆發式增長,接入 Alexa 的智慧硬體設備也快速增長。由此,Alexa 作為智慧硬體語音平台的雛形已經構建。這一切快速成型,源於智慧音箱 Echo 的推出和成功。

另外,一個非常重要的方面——數據。懂演算法的人都知道,在深度學習時代對於語音識別、圖像識別等方向的算法精度,演算法本身產生的差別已經很小,決定演算法性能的關鍵就是數據,各專業領域的數據。消費級硬體 Echo 的推出,快速建立起亞馬遜的數據優勢和壁壘。所以 CNET 在 CES2017 上對語音產品進行統計,結論是亞馬遜對於蘋果和 Google 有大幅優勢,也就很自然了。也就是說,從語音數據的完備上來說,亞馬遜也領先於 Google。

2.3 亞馬遜的渠道作用

Echo 作為一款智慧硬體是怎麼快速成功的呢?是不是切合了消費者的某種需求就能快速成功呢?顯然不是。個人認為,亞馬遜作為科技公司的影響力和本身就是全世界最大的網上零售商渠道密不可分。 一個不是大眾型硬剛需的新消費級硬體商品要想取得巨大成功,一定要有良好的曝光和分發渠道,亞馬遜本身就有絕對的優勢。

渠道對於硬體的作用在過去兩年裡的手機領域,表現的淋淋盡致。品牌影響力和渠道對新硬體成功的重要作用,在國內智慧家居相關領域的電子消費品創業公司裡已經而且正在被印證。比如,在過去兩年國內智慧家居類創業公司中,成功率最高的就是小米的生態鏈企業。

可能會有朋友質疑,如果亞馬遜的渠道對 Echo 有推動作用,為什麼亞馬遜自己的手機 FirePhone 不能借助自己的渠道成功呢?Echo 是新品類智慧硬體,就像剛發布時的 iPhone。即使在有競品時,其性能和品質也遠高於競爭對手。 而 FirePhone 發布時已經是一個紅海中的跟隨者,而且還不是一個成熟的手機產品。FirePhone 和 Echo 從產品的角度去審視,根本完全就不在一個層次上。也就是說,渠道是很強的助力器,根本當然還是要看產品。

2.4 亞馬遜的雲端服務支撐

語音平台 Alexa 是要基於雲端計算和搜索技術來工作,而亞馬遜在這一領域已經有十多年的積累,而且在雲端服務上做的時間最久也做的最好。也就是說,像 Alexa 這樣一個平台級的語音系統,想做好要有強大的相關軟硬體基礎設施支撐。所以一般的公司即使有語音的技術,想做到亞馬遜這個水平,也是很難。

2.5 演算法技術與商業

一般人認為的 Google 明顯強於亞馬遜,在於人工智慧整體技術演算法的積累上,Google 在這一塊確實非常之強。但是在語音領域,特別是應用到產品上的語音演算法,Google 並不一定對亞馬遜有優勢。況且決定性能好壞的,演算法本身的優勢遠不及數據關鍵。而亞馬遜在數據的量,特別是專業數據的多樣性上,隨著 Echo 的推出建立起很大優勢。

關鍵的是,對於演算法技術本身,如果不是革命性的演算法,對於商業是否成功並沒有必然關聯性,演算法和商業可以說是兩個層面的事情。首先要是商業決策做對了,算法才能更好發揮價值。而在語音商業的構建上,亞馬遜明顯要比 Google 高明。

再者,語音智慧硬體 Echo 的成功並沒有出現在單純做語音技術的公司裡,足以說明演算法技術本身和商業的成功是兩個層面的事情。決定商業上成功的因素比技術本身多太多了。

當然,不能想當然的認為技術好壞和商業成功就沒有關係。Echo 在語音方面的優秀硬體設計和出眾的軟體演算法也是 Echo 得到消費者認可的重要因素,因為它們直接決定消費者的體驗,這當然也是關鍵因素。其實這部分的功能設計也是由商業規劃決定的,如果決定把 Echo 做成一個語音入口,特別是在家庭場景下不用手持就可以在近場和遠場兩種情況下直接語音操控,多麥克風陣列設計、波束成型技術、和軟體算法的識別及去噪功能就要做的出眾,這就是很自然的產品產生的技術需求。

Echo 從項目立項到推出第一款產品,歷時四年多時間打磨。這麼長的項目周期中間發生了什麼,外人無從知曉。但是對於現在推出類似產品的公司,誰都沒有那麼大的時間成本做這樣這一款產品了。Google Home 硬體產品用時可能只有 Echo 三分之一的時間。

2.6 Google 是否已經失敗

智慧設備語音平台的爭奪是否就能說亞馬遜勝出了呢?到現在是的,而且亞馬遜已經建立起巨大的優勢。

很多人拿 Google 搶占手機操作系統和微軟失去這次機遇的情況做類比,我認為這兩者的商業情況並不能完全類比。Google 對於語音商業的布局和應對亞馬遜的方式,和當年微軟應對手機操作系統時的方式完全不同。

而且我們也要看到,至少到目前為止,接入亞馬遜智慧語音平台的絕大多數都是除了手機平板電腦之外的智慧設備。而全球有 20 億記的設備運行著 Google 的安卓系統,特別是智慧手機占有超過 80%的市場份額。Google 還有巨大的進取空間。所以將來在歐美市場上是亞馬遜一家獨大,還是和 Google 在不同的智慧設備品類上平分秋色,現在下結論都還為時過早。

在文章開始埋下一個伏筆,就是這次 CES 上運行著 Google 安卓的 華為美國版 Mate 9 手機內嵌了亞馬遜的 Alexa 語音系統 。如果說 Alexa 讓 Google 背脊發涼的話,華為的這個選擇足以讓 Google 心悸了。這是安卓系統手機中第一次運行亞馬遜的語音系統,而且安卓手機是 Google 在語音領域捭闔的勝負手。這對 Google 真的是一個沉重的壞消息。

國內誰與爭鋒?

亞馬遜 Alexa 的巨大成功,是人工智慧商業化的一個靚麗風景,也算是人工智慧開啟新工業革命大幕拉開的序幕之一。而人工智慧是國內科技企業都在爭相競逐的領域,無疑模仿 Alexa 在所難免。所幸的是,由於語言的差異和語音技術的數據壁壘,國內科技公司在語音上有機會開辟一片天地。

自然有一個問題,是不是誰都適合去做這樣的一個語音平台呢?

從技術上來說,自然想到的是科大訊飛、百度、搜狗、雲之聲、出門問問等企業。而且語音技術公司也都在智慧家居等領域進行了廣泛的布局。從和亞馬遜商業模式的類比上來說,自然想到的還有阿裡巴巴和京東。其實在這些企業中誰將能勝出,誰也說不準,因為決定軟硬體這種平台級產品是否成功是綜合因素的發力結果。最新的消息是百度和小魚在家機器人公司深度合作,打造內嵌百度語音操作系統 DuerOS 的智慧終端產品。

像上面分析的亞馬遜成功的因素,只要沉下心來想一想,還是不難理解的,比如京東就是一個。在 2015 年中旬,京東就聯合科大訊飛發布了智慧音箱叮咚。僅僅從商業上來說,按照亞馬遜的模式,京東和科大訊飛的聯合確實看上去能相互采其所長,復制亞馬遜 Echo 的成功。但事實是,即使這樣的強強聯合,也沒有把叮咚做成像 Echo 一樣成功的現像級產品。更別說國內這兩年出現的各類各樣的智慧音箱了,大都是悄無聲息。

這是為什麼呢?

我認為最關鍵的就一個:中國和美國在家庭智慧設備上的差異和對新工業品的使用習慣上。美國在家庭智慧設備的數量及多樣性上和對新工業品的使用習慣上,已經能支撐起像 Echo 這樣的智慧設備成功。

根據 2016 年的統計數字,美國大概有 460 萬家庭用戶已經安裝了智慧家居系統,而中國只有 30 萬戶使用者。美國 2015 年智慧家居創造的市值是 60 億美金,而中國只有 3 億多美金。這兩組數字足以說明中國和美國在智慧家居基礎設施上的巨大差異,而智慧家居是智慧音箱最重要的應用場景。也就是說,從智慧音箱這類產品上來說,中國遠沒有美國那麼成熟的條件。

但是這個局面是需要時間才能改變的。正因為如此,除了專業做語音軟體技術的公司外,也給了國內做智慧家居品類的科技公司一個很好的機會。

智慧家居是語音應用的最重要場景之一,但是設備的智慧化對於語音技術的需求是龐大而多樣的,所以國內的語音技術公司有足夠大的舞台結合自己的特點開拓新商業,沒有必要都去模仿 Echo 這個產品。但是沉下心來思考一下亞馬遜的成功之道還是必要的。

在此祝福國內在語音方面已經有積累的技術公司,特別是在軟硬體方面都有豐富經驗的公司,你們施展才華的黃金時代到來了。

延伸閱讀

Google 和蘋果學不來的創新,Amazon 用「兩個披薩」打造地表戰力最高團隊
2017 CES 大展充滿「女聲」,亞馬遜 Alexa 獨霸智慧聲控助理領域!
【個人隱私大戰社會安全】謀殺案被 Amazon 智慧家電 Echo 錄到,但 Amazon 拒交紀錄

(本文經合作夥伴 36 氪授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈解析 Amazon 和 Google 語音平台之爭的商業邏輯 〉。首圖來源:Crosa,CC Licensed)

點關鍵字看更多相關文章: