Google AI 技巧全公開!不只開源語音數據資料庫,連模型建立秘訣都教你

【我們為什麼挑選這篇文章】語言資料庫是非常難以建立的,因為每個種族、語言、年紀和性別都會影響語音辨識的準確度。而要提高辨識精確度,最根本的解決辦法就是擴增數據資料庫資料,而且讓更多人參與,研究各自的母語!

Google 宣佈開源  Speech Commands Dataset,開放數據讓大家取用、將使用介面友善化而且還給出自己如何建造語音模型的實例。就是希望讓更多人加入 AI 語音模型開發與研究! (責任編輯:劉庭瑋)

Google 的工程師們經常被問到這麼個問題:

怎麼上手用深度學習做語音識別或其它音頻識別,比如關鍵詞或指令?

雖然,現在出現了些很優秀的開源語音識別系統,比如  Kaldi,就能把神經網絡作為其中的一個模塊。但其高度複雜性,讓它們並不適合作為解決簡單任務的指南。更重要的是,對於新手而言,免費、可公開獲取的數據集並不多,經過預處理的、或適合於簡單的關鍵詞檢測的也很少。

為解決這些問題, Google 的  TensorFlow AIY 團隊創建了  Speech Commands Dataset,即「語音命令數據集」,並基於它向  TensorFlow 添加訓練和推理的示例代碼。

雷鋒網 (公眾號:雷鋒網 )消息,Google 在今日宣佈開源該數據集。

30 個命令短語,該數據集有 65000 次的長約一秒鐘的發音。這來自數千個不同的人向  AIY 網站 提交的貢獻。它以 Creative Commons BY 4.0 許可發佈,隨著新貢獻的添加,該數據集在未來會不斷擴大。

建立這個數據集的目的,是幫助大家為應用創建基礎但有用的語音交互 ,比如「 Yes」、「No」、數字、方向等詞語。Google 也已經將開發這一數據集的基礎設施 開源 ,並 希望看到更多人借此創建更多版本的數據集,尤其是針對冷門語言和應用。

下載預建的  TensorFlow 安卓演示 APP,打開  TF Speech」,就能體驗 Google 基於該數據集開發的識別模型。另外,你可以通過  TensorFlow.org 的  音頻識別  tutorial  學習怎麼開發你自己的模型。

想知道更多人工智慧發展新趨勢?
2017 
年全台最盛大     全球商業趨勢匯壇,與你有約!

_______________________________________________________

TechOrange  徵才:社群編輯+實習編輯】

你是否常在各類豐富的科技趨勢裡流連忘返?
你是否常被創業故事弄得熱血沸騰無法成眠?
你是否喜歡很有挑戰性、嘗試新事物的工作?
我想你大概就是得了  TO  病,不加入不行了。
準備好你的履歷自傳,寄至  jobs@fusionmedium.com
記得標註你要「應徵  TO  社群編輯」,才不會跑錯棚哦!
>> 
詳細職缺訊息

______________________________________________________

(本文經合作夥伴  雷鋒網    授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈谷歌開源語音命令數據集,幫助開發者搭建基礎的語音交互 〉。Photo via Visualhunt

延伸閱讀

讓 Google 一年損失 30 億台幣的神秘按鈕!搜尋首頁那個「好手氣」按鈕到底是啥 OREO 掛名贊助?Google 推出最新 Android 系統 Oreo,解決版本碎片化就靠它
【大數據科普文】Google、Facebook 和亞馬遜如何運用用戶數據資料?
【都是為了大家好】Google 發表自動去圖片浮水印演算法,目的卻是為了保護版權?


321 倒數 ,2020 只剩 3 年,區塊鏈、5G、AI 技術將成熟到位。
從產業到社會,台灣沒剩多少時間準備。

12/9 TechOrange、BuzzOrange「CONNECT 2020」年度產業論壇,連結未來改革能量

點關鍵字看更多相關文章: