【我們為什麼挑選這篇文章】「讓電腦聽得懂人話」一直是翻譯及 AI 語音想要達到的理想。谷歌似乎做到了!開發了 AI 軟體 Talk to Books ,以 10 萬本書及報章雜誌為數據庫,大幅提升 AI 跟人類對話的準確性。(責任編輯:鄧天心)

電腦如何理解我們的日常語言呢?

谷歌是利用數十億條對話來直接告訴 AI,真正的人類對話是什麼。

而書籍,是人類語句最大的匯聚地。

谷歌開發 AI 軟體 Talk to Books 昨日上線,為了通過搜索讓電腦理解人類的日常用語。

網站鏈接:https://research.google.com/semanticexperiences/about.html

在 Talk to Books 中,當你輸入一個問題或一個陳述時,系統會查找超過 10 萬本書籍中的每個句子,找到最有可能出現在對話中的答案。

  • 讓我們看一個谷歌給出的案例:

文摘自己做了嘗試,輸入:「AI 會比人類更聰明嗎?」

出現在第 1 位的答案來自 Kevin Gurney 的《神經網絡入門》,而排在第 2 位第 3 位的分別是生物科學和語言學的兩本書,點擊可以直接進入谷歌圖書,找到相關語句。

AI搜尋,打趴傳統關鍵字搜尋

在谷歌官方發布的介紹文章中,表示:「它的目標和技術與傳統的搜索完全不同。」

在這個實驗中,其實沒有考慮這本書是權威的還是只是論題,該系統只是查看每個句子與查詢配對的情況。

此外,直接問出完整的句子,會比輸入關鍵詞或者短語獲得更好地結果,而這一點與傳統的搜索引擎有根本不同。

對於開發人員來說,谷歌也提供了更詳細的技術細節來供探索。

專門的開發者頁面:

https://research.google.com/semanticexperiences/for-developers.html

谷歌稱「我們很高興與社區分享這些模型,我們知道展示僅僅只是一個開始……。」

以下是谷歌給技術人員寫出的技術細節,《大數據文摘》編譯如下:

訓練模型

我們上面分享的模型主要是通過對自然語言輸入以及反饋進行訓練。最簡單的例子是訓練使用報紙文章中的上下具。

  • 正面例子:從 Q/A 數據集中輸入:「今晚你為什麼不去吃晚餐?」其配對答復是:「對不起,我不能去。」
  • 反面例子:隨機配對的輸入/回复:「為什麼你今晚不來吃飯呢?」其配對答復是:「大都會隊贏了三場比賽。」

通過學習區分正確短語對,使用問答數據庫、報紙文章,模型可以讓句法、主題、語義都達到,學習適當表示自然語言語法、語義。

但是有效性隨著輸入長度的增長而下降,這些向量可用於語義相似任務、Q/A任務、自然語言建議任務等。

敏感話題怎麼處理?

還沒有(也可能永遠不會)有一個完整的解決方案來識別偏見及敏感話題。正如 Caliskan 等人在他們最近的論文《自動從語言語料中導出的語義包含類似於人類的偏見》中指出,這些深深地存在我們日常用語中。

語言理解模型使用數以十億計的例子來了解這個世界。語言理解模型的進步可以推動社交也可以反映人類的認知偏見。

在 Talk to Books 中,雖然我們不能手動審核 10 萬冊書籍中的每個句子,但我們增加專業出版社出版的圖書的比例,提高標準。

AI 實驗項目,沒有採取減輕偏見的措施,表明了AI的全部能力和弱點,但使用者還使可以透過反饋工具報告冒犯性關聯,以便改進未來的模型。

使用模型

TensorFlow 最近發布了  TFHub,TF-Hub 是一個分享機器學習專業知識的平台。在這個平台上,提供了教程,包括語義相似和文本分類,裡面包含預先訓練的模塊中的專業知識。

延伸閱讀:

機器翻譯發展史:笨機器人,是怎麼學會說人話的

翻譯英文秘密武器!世界上「英翻中」最強的公司,並非 Google 或微軟

【宇宙通用翻譯機】卡內基美隆大學研發,超越 Google 神經網路的翻譯法!

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈谷歌AI上线“与书籍对话”项目,从10w+本书中搜索你要的答案〉,首圖來源:YouTube。)