吳恩達談中文神經網路:怎麼讓電腦一次認識 5 千個中文字

Medium 作者 Caleb Garling 在史丹佛人工智慧實驗室主任吳恩達結束了舊金山的深度學習峰會後,與之進行了一次訪談。在大會上吳恩達受到了一大群仰慕他的計算機科學家的訪問。他是深度學習教授,也是前Google Brain 的負責人和 Coursera 的創始人,現在他擔任著百度公司首席科學家。

深度學習已經成為了計算機領域最熱門的話題之一了,這在很大程度上是由於 Geoff Hinton 在過去十年的努力,現在 Geoff Hinton 是 Google 的頭號人物之一。他們的想法是,如果你反饋給一台電腦很多圖像,比方說一隻狗的圖像,計算機最終將學會如何識別犬類。如果我們可以教會機器這麼做,機器將很快能真正的擁有人的感觀——理解語言和圖像。

吳恩達和 Caleb Garling 談論了他帶領百度在深度學習中面臨的挑戰,他強調,百度只對可以影響 1 億用戶的技術有興趣。以下為訪談內容:

問:人們往往將我們的生物大腦與計算機神經網絡混為一談。你能解釋為什麼這是不准確的?

在大腦中的單個神經元是一個非常複雜的機器,即使到了今天我們仍然弄不明白。在計算機神經網絡中的單個「神經元」是一個非常簡單的數學函數,只捕捉了複雜的生物神經元中很小的一部分。這麼說來計算機神經網絡只是模仿人類大腦,但真正的人造神經網絡是比不上我們生物的大腦。

深度學習算法在如今非常擅長的一件事就是學習輸入,並將其映射到一個輸出,X 到 Y。學習這一概念將是困難的。

有一件事是百度在幾個月前做到,那就是輸入圖像,並輸出文字。我們發現,你可以學習這些輸入輸出的映射。現在仍然有很多需要改進的地方,但它是一個很有前途的方法,可以讓電腦理解這些高層次的概念。

問:普通話和英文,幾乎從任何方面而言這都是兩種完全不同的語言,所以對於理解這兩種語言的機器框架來說,到底有何不同呢?

現有的科技理論還沒有成熟到讓吳恩達足以言簡意賅地給出答案的地步。我們已經有很好的英文框架了,現在我們想嘗試解決中文框架的問題。

英語有 26 個字母,然而中文大約有 5000 個字符。如果你看一篇中等長度英文的語料庫,出現的總是那麼 26 個字母,而中文的語料庫中會有一些你只會見到一次的生僻字。所以你要如何學會認識這些中文字符?

相比較而言,羅曼斯語言(由拉丁文演變而成)更加簡單。從法語轉到英語也比從中文轉到英語要容易得多。

問:所以如果有一張圖片被標註上了英文標籤,如何才能將這些標籤轉換成中文?

我認為有很多方法都值得我們去嘗試,並且這些方法我們都還不曾進行過探索。我們用的其中一種方式就是多任務學習的方法。假設說你有一個可以識別被英語標籤所標註的圖像的人造神經網絡,現在你要做的就是訓練這個網絡,讓它可以識別中文標籤,如果你能將這個神經網絡訓練成能同時完成中文和英文識別這兩件事,很有可能這個網絡會比單獨識別英語和中文的網絡要好得多。

這麼做是有優勢的,但是優勢並不明顯。原因是這樣,機器可能會學習識別圖像中的邊,然後又學會了辨別圖像中的角。對於兩種語言來說,這種知識都是通用的。一旦你學會了識別英語中的物體,這事實上對於你學習中文中的物體也有幫助,因為你可以辨別這些邊和物體。

問:那些只存在於一種語言之中的詞又該怎麼辦呢?

在英語裡,無論是姐姐還是妹妹都只有一個單詞「sister」,但是在中文中,姐姐和妹妹是兩個不同意思的詞。事實上,當你想要翻譯「sister」這個詞的時候就會遇到問題,因為你不知道應該如何將它翻譯成中文,你不知道到底說的是姐姐還是妹妹。不過我認為如果機器知道你的 sister 和屋子裡其他的物體是有區別的話,那再區別是姐姐或者是妹妹並不困難。如果你不知道 sister 的概念,就要從零學習姐妹的概念了。

隨著不斷地訓練,投入也會越來越高昂,除非你的神經網絡規模比較小了。

問:什麼樣的神經網絡才算是小型的?

這會隨著時間改變。我們一般是依照神經網絡之間的連接數劃分。百度訓練的神經網絡的連接數量一般可以達到幾百億。

問:在語言識別上,百度會不會從一些特殊的音節或是字母組合入手,比如「th」?

過去的語音識別是這麼做的——語音識別通常都有一個標準的管道,輸入音頻,並預計這些音節到底是什麼。然後你再用另一套系統,把這些音節映射成文字。

不過近來人們一直在爭論一個問題,那就是音節到底是語言的一個基本組成部分,還是語言學家空想出來的?我花了很多年試圖說服人們,音節其實是人類構造的,它不是語言的一個基本事實,只是人類發明出來對語言的一種描述方式而已。許多語言學家對此表示強烈的不滿,甚至公開地表示了反對。

我們在百度語音系統中並沒有用到音節的概念,這和小孩學習語言的過程十分相似:我們會給計算機播放一段音頻,告訴它文字的內容,然後讓它自己建立映射。在說英文的人看來,人們還不知道音節的概念是什麼之前,就已經會說英語了。

問:那麼電影呢?百度是否有關注這方面嗎?

深度學習在視頻方面有很多的成果,但是考慮到機器對於時間這個基本維度的認識,我並不認為它們很成功。所以深度學習的研究者們會常常爭論,時間這個維度對於我們的智能發展到底有多重要。

問:你看到了人工智能的潛在威脅了嗎?

我認為關於「邪惡的機器人殺手」的擔憂是被誇大了。有智力和感知能力之間是有很大的區別。我們的軟件正變得越來越聰明,但是這並不意味著它即將變得具有感知能力。

延伸閱讀:微軟一心發展人工智慧,創辦人比爾蓋茲卻「恐 AI」

(本文載自合作媒體雷鋒網,未經許可不得轉載)