Udacity 全新 AI 系統!只要提供音檔,就能自動生成超擬真的教課影片

【為什麼我們要挑選這篇文章】懂得教課的人,不一定會拍影片。線上教學課程要求影片、內容高品質,對某些教學者來說得耗費大量資源。

著名線上學習網站 Udacity 研究團隊,採用論文,進一步研發 AI 系統讓用戶只要傳音檔就能自動生成講課影片。此系統技術如何創造?本文解釋給你聽。(責任編輯:陳伯安)

「《科技報橘》徵才中!跟我們一起定位台灣產業創新力 >> 詳細職缺訊息 
快將你的履歷自傳寄至 [email protected]

線上課程已經成為了終生學習者們不可或缺的學習資源,而要完成一份高質量的影片,需要耗費不少人力和資源。尤其是在包含影片處理的時候,專業的講座影片片段處理需要的不只是工作室和設備,更重要的是轉化、編輯、上傳的每一節課程的原始影片素材。

最近,為瞭解決這一問題,Udacity  的研究團隊就嘗試將影片生產這一過程自動化。他們研究了一套 AI  系統,希望將音檔直接轉化為講座影片。

只要傳個語音就好,AI 會自動生成影像

MOOC  平台上的內容生產可以是名利雙收,但是這些內容生產工作往往耗費大量時間。這就是為什麼 Udacity  的研究開發人員採用機器學習去自動將語音旁白生成講座影片。這一研究被發表在一篇名為 LumièreNet: Lecture Video Synthesis from Audio 的論文中。

在發表的論文中他們提到,通過直接定位語音文件和對應視角,機器學習框架 LumièreNet 可以合成任何長度的影片。

論文傳送門

根據演講音檔生成的對應影片

「在現行的影片製作中,AI  的參與或者半參與都能大規模實現影片生產的自動化,這將為靈活的影片內容發展提供巨大價值,因為不需要再去拍攝新的影片」,論文的作者說,「我們推行一種將任意長度的講座錄音去合成講座影片的新方法 …… 一個簡易的、模塊化的、完全基於神經網路的系統。通過輸入演講音檔,就能得到對應的全身演講影片,這在之前還沒有從深度學習的視角被強調過。」

LumièreNet  的合成主要針對唇部周圍的面部表情,然後通過借用其他影片去合成畫面的其他部分。但是因為演講者的情緒不只是通過面部表情傳達,所以這個研究模型還有一個姿勢判斷組件,通過從影片框架訓練數據集中提取的數據合成身體特徵圖像。簡要來說,就是通過對身體主要幾個點的探測和定位,去創造真人演講的生動細節。還有一個模塊是關於雙向循環長短期記憶(BLSTM)神經網路,按正序或倒序處理數據,使得每一次輸出都能反映之前的輸入和輸出 —— 它會利用輸入的語音特徵和目的去推測它們和視覺元素之間的關係。

LumièreNet 由三個神經網路模塊組成:BLSTM,VAE 解碼器和 SeqPix2Pix。BLSTM 將提取的音檔特徵 x 與中間潛在代碼 z 相關聯;VAE 解碼器從 z 構造相應的姿勢圖 w;最後,SeqPix2Pix 根據給定的 w 產生最終影片。

機器學習研發新角度,但結果還稍嫌不足

為了測試 LumièreNet,研究人員拍攝了一個八小時的室內講座影片,產出了大概四小時的影片和兩段用於訓練和驗證的旁白。

研究人員報道說,通過訓練的 AI  系統可以生成逼真的影片片段,有流暢的身體動作和寫實的頭髮,但是這些結果在觀察者眼裡還是不能騙過觀察者的眼睛。

因為這些姿態評估器不能捕捉像眼球運動、嘴唇、頭髮、衣物之類的細節,被合成的演講者很少眨眼而且他們嘴巴的運動看起來有些不自然。

生成影片範例:1 號傳送門2 號傳送門

可以看到,在這一段合成的影片中人物的動作不夠生動,尤其是缺乏眼神上的交流。雖然嘴唇的開合與敘述幾乎完美同步,但是缺少更精細的運動細節。仔細看的話,會發現手指之間看起來模糊,更糟糕的是眼睛有的時候會看向不同的方向。

線上學習 AI 技術的下一步

研究團隊猜想,「面部要點」(例如,生動的細節)的添加或許能夠使合成變得更好。幸運的是,他們的系統模塊設計使得每一個組件都能被獨立訓練和驗證。

「許多未來的方向都是可被探索的」研究人員寫道,「即使最開始的時候只是用於支持靈活的影片內容發展。我們知道這項技術存在潛在的濫用行為 …… 但是希望研究結果可以促進深度學習在商業影片生產領域的發展。」

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈给出音频 AI 就能生成对应演讲,Udacity 想把线上课程录制自动化 〉,首圖來源:Unsplash, CC Licened。)

延伸閱讀

6 週練出血洗星海爭霸的超強 AI!DeepMind 推出簡單、好學的機器學習新手菜單

AI 工程師最佳入門資源!史丹佛公布「自然語言理解」免費課程,新手們趕快存起來

一上架就破 1000 萬集資!台灣的 AI 寶寶攝影機 Cubo 在美募資平台破紀錄


人類陷入空前數據絕境

量子運算數秒瓦解所有加密技術!企業毫無抵擋之力 搶先報名 12/6《2019 未來科技展》量子加密場次 找到資安機制一線希望

點關鍵字看更多相關文章: