這幾年透過 AI 人工智慧將文字轉化成圖像的技術已經頗為成熟,不僅可以作為藝術家的靈感來源,甚至還在繪畫比賽中打敗人類奪得冠軍,引起許多討論。而現在,文字產生圖片已經沒什麼特別的了,研究人員也轉向下一個領域進行開發:透過 AI 將文字轉化成影片。

AI 不只能把文字變成圖片,還能做成影片

Meta 的機器學習工程師推出了一個名為 Make-A-Video 的新系統。顧名思義,用戶只要輸入一段粗略描述的文字,這個人工智慧模型就會產生一個相符的短影片。雖然這些影片很明顯是人造的,動畫相當扭曲、畫面也很模糊,但仍然是人工智慧在文字轉化領域的重大里程碑。

Meta 執行長 Mark Zuckerberg 認為這是「驚人的進步」並補充說明,產生影片比照片要困難得多,因為除了正確生成每個像素之外,系統還必須預測它們將如何隨時間變化。

Meta 文章中提供的這些短影片都不超過五秒,且也不包含音訊。每個短影片都是由 Make-A-Video 生成的,並在畫面右下角帶有 Meta AI 的標誌。不過目前還不開放用戶試用這個 AI 模型。

短短幾年的時間,AI 圖片產生器就已經從原本難以理解的圖片變成為如今栩栩如生的內容,但目前在影片的轉化上還是有一些難以克服的 bug。例如以下這張「一隻黃金獵犬在日落時在美麗的熱帶海灘上吃冰淇淋」看起來好像都很正常,但卻出現一隻拿著冰淇淋的人手,讓畫面瞬間變得很詭異。

雖然這些影片過於不自然,以至於能很明顯判斷是電腦產生的,但此類 AI 模型的輸出品質將在不久後迅速提高。 面對複雜無限制的主題,影片發展的速度可能會比較慢,我們仍能預期其將吸引許多機構和公司為該項目投入大量資源。但就像 Deepfake 深偽技術可能帶來某些社會問題一樣,這類文字轉影片 AI 工具,對社會是福是禍仍有待觀察。

本文開放合作夥伴轉載,參考資料:TechCrunchThe VergeMeta AI,首圖來源:Meta AI