【我們為什麼挑選這篇文章】語言資料庫是非常難以建立的,因為每個種族、語言、年紀和性別都會影響語音辨識的準確度。而要提高辨識精確度,最根本的解決辦法就是擴增數據資料庫資料,而且讓更多人參與,研究各自的母語!

Google 宣佈開源 Speech Commands Dataset,開放數據讓大家取用、將使用介面友善化而且還給出自己如何建造語音模型的實例。就是希望讓更多人加入AI語音模型開發與研究! (責任編輯:劉庭瑋)

Google 的工程師們經常被問到這麼個問題:

怎麼上手用深度學習做語音識別或其它音頻識別,比如關鍵詞或指令?

雖然,現在出現了些很優秀的開源語音識別系統,比如 Kaldi,就能把神經網絡作為其中的一個模塊。但其高度複雜性,讓它們並不適合作為解決簡單任務的指南。更重要的是,對於新手而言,免費、可公開獲取的數據集並不多,經過預處理的、或適合於簡單的關鍵詞檢測的也很少。

為解決這些問題,Google 的 TensorFlow AIY 團隊創建了 Speech Commands Dataset,即「語音命令數據集」,並基於它向 TensorFlow 添加訓練和推理的示例代碼。

雷鋒網(公眾號:雷鋒網)消息,Google 在今日宣佈開源該數據集。

30 個命令短語,該數據集有 65000 次的長約一秒鐘的發音。這來自數千個不同的人向 AIY 網站提交的貢獻。它以 Creative Commons BY 4.0 許可發佈,隨著新貢獻的添加,該數據集在未來會不斷擴大。

建立這個數據集的目的,是幫助大家為應用創建基礎但有用的語音交互,比如「Yes」、「No」、數字、方向等詞語。Google 也已經將開發這一數據集的基礎設施開源,並希望看到更多人借此創建更多版本的數據集,尤其是針對冷門語言和應用。

下載預建的 TensorFlow 安卓演示 APP,打開 TF Speech」,就能體驗 Google 基於該數據集開發的識別模型。另外,你可以通過 TensorFlow.org 的 音頻識別 tutorial 學習怎麼開發你自己的模型。

想知道更多人工智慧發展新趨勢?
2017 
年全台最盛大   全球商業趨勢匯壇,與你有約!

_______________________________________________________

TechOrange 徵才:社群編輯+實習編輯】

你是否常在各類豐富的科技趨勢裡流連忘返?
你是否常被創業故事弄得熱血沸騰無法成眠?
你是否喜歡很有挑戰性、嘗試新事物的工作?
我想你大概就是得了 TO 病,不加入不行了。
準備好你的履歷自傳,寄至 [email protected]
記得標註你要「應徵 TO 社群編輯」,才不會跑錯棚哦!
>> 
詳細職缺訊息

______________________________________________________

(本文經合作夥伴 雷鋒網  授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈谷歌開源語音命令數據集,幫助開發者搭建基礎的語音交互〉。Photo via Visualhunt

延伸閱讀

讓 Google 一年損失 30 億台幣的神秘按鈕!搜尋首頁那個「好手氣」按鈕到底是啥OREO 掛名贊助?Google 推出最新 Android 系統 Oreo,解決版本碎片化就靠它
【大數據科普文】Google、Facebook 和亞馬遜如何運用用戶數據資料?
【都是為了大家好】Google 發表自動去圖片浮水印演算法,目的卻是為了保護版權?