Search
Close this search box.

發展語音辨識,語音資料蒐集該重質還是量?

就語言模型而言,為了應付多樣化的主題及口語表達方式,試圖從各個網站收集語言數據用於語言模型,這不只富挑戰性,還是個很吸引人的計畫。

Google 最近公佈了新的研究報告,詳細地描述了語音辨識系統背後的數據處理科學,像是語音搜尋或幫 YouTube 的演講加字幕,都會大量地使用到語音辨識系統。

呃……數學部份可能是許多人心中的痛,姑且讓我們開心地跳過數學部份,內文部份有提到 2 項重要的討論:

1. 為什麼許多人會引入大型資料庫系統?

2. 為適當的任務挑選適當數據的重要性。

受到研究總監 Peter Norvig 的立場影響,Google 一直以來都以收集數據為樂(咦?),不過廣泛而論,數據收集癖總比演算法收集癖要來得好,如 Peter 等人在 2009 年的文章中所提到的,如果是執著於發展更優美的理論,或更複雜的模型(或稱演算法),其實際效益恐怕遠比不上好好收集數據及數據本身的特徵。

但別誤會囉!這並不是在說模型無用論,誠如 Netflix 的研究及工程部門經理 Xavier Amatriain 所言,沒有適當的模型,數據及其特徵就不再具任何意義,以語音辨識為例,若沒有建立適當的辨識模型,即使有大量的語音資料庫為底,任何聲音在薄弱的辨識模型下都只是噪音而已。

若已建立適當的模型後,汲汲營營於開發不同的模型就顯得意義不大,收集越多的數據才能有效地增益模型的功效,基於此,大型數據庫因應而生,許多公司正是因此開始收集各式各樣的相關數據,試圖提供大量數據給建立的模型「學習」,讓模型的表現變得更「聰明」。

毫無疑問的,越多的數據背景越能優化語音辨識功能,不只語音辨識功能如此,基於已鍵入的字所做的字詞預測功能亦如此,若能建立成熟的語言模型並佐以越多數據,預測錯誤的機率也會隨之越低,Google 的研究人員 Ciprian Chelba 曾以此寫了一篇研究報告,文中提到,好的語言模型應該會在「New York」後提供「pizza」的字詞預測,而不是預測「granola」(是紐約人都只吃速食不吃早餐的意思嗎?),若在 Google 的語音搜尋功能下,當語言模型的內容增加兩個數量級時,字詞預測的錯誤率就會相對降低 10%。

  • 語音資料類型比數量更重要

數據庫的重要性絕對是毋庸置疑的,但若想有效地以數據「訓練」模型,重點就在數據的類型上而非數據本身,以 Google 的語音搜尋為例,其從 google.com 的匿名訊息中收集了 2 千 3 百億個字做為數據庫內容,但字本身並未經過拼字校正。不過,當人們在寫散文或說話時,其內容的多樣性大過於文字搜尋的輸入內容,因此 Youtube 的語音辨識模型的數據是從新聞播報及其他大型網站的文字而來。

現今,資訊的取得已越來越多樣化,知識的傳遞方式從紙本延伸到網路,查詢平台也從圖書館拓展到行動裝置,使用者正在經歷愈來愈智慧化的科技應用,以及愈來愈流暢的使用體驗,傳統的人工處理模式正被顛覆中,如何取得有意義的數據,並用於有效的自動處理模式,才是這個時代的趨勢。

但怎樣的數據才算有意義的呢?這就得看你的用途及分析方式了。

(資料來源:GigaOM;圖片來源:sun dazed, CC Licensed)