generative AI synthesis engine

文:Anice.H藍立晴共同編寫

隨著人工智慧科技不斷演進,應用範疇也不斷擴大,其中生成式藝術 AI(AI generative art)是蓬勃發展的領域之一。

以自然語言處理模型「GPT-3」為例,使用案例已遍及內容創作、文案撰寫、顧客支援、產品設計,此外還有圖片生成工具「DALL-E 2」、「Stable Diffusion」、AI 音樂生成軟體「Jukebox」,可以說在合成引擎的推動下,藝術將是 AI 帶來革新的下一個領域,而且這類工具,極有可能即將取代我們過往所知道的搜尋方式。

♦ TO 延伸閱讀:【給 AI 產業工作者的 2023 預言書】五大趨勢與問題,等你們替全世界人類解決!

從搜尋引擎到 AI 合成引擎

1990 年代初期,正是全球資訊網(WWW)開始成長的階段,人們需要搜尋並整理文件檔案,進而催生搜尋引擎的技術發展:曾風光一時的產品包含 Yahoo、美國入口網站「Excite」、搜尋引擎元老「Lycos」與「Infoseek」等,只不過最終,稱霸搜尋引擎市場還是 Google; Google 在英語詞彙中甚至變成了「上網搜尋」(search)的同義詞。

Google 搜尋引擎的邏輯並不複雜:使用者在搜索框中鍵入某個詞彙,經過某種像黑盒子般、沒有人知道確切運作方式的演算法排名,對內容進行索引與爬取(crawling),最終呈現給使用者的是一份超連結名單,指向不同的網域內容。

這是目前使用者檢索網站內容的主要方法,也是現今網路使用者最為熟悉的搜尋方式;Google 在搜尋引擎市場的地位舉足輕重,幾乎讓人無法想像哪天可能會有替代品出現,直到近年大家逐漸認識「AI 合成引擎」(synthesis engines)。

我們可以從美國科技業創投家 Balaji Srinivasan 的推文中略見端倪:

合成引擎 > 搜尋引擎
未來 DALL-E 等合成引擎能在接收詳細提示(prompt)後,創作出許多形式的文字、音訊、圖像、影片。Google 將淪為過時的搜尋引擎,使用者只會拿來引用他人作品。

合成引擎與搜尋引擎有什麼不同?

尤其在眾人見證過 ChatGPT 的神奇魔力後,「ChatGPT 將取代 Google」這類的呼聲又變得更高了。

簡單來說,搜尋引擎的作用是根據搜索單詞,爬取索引到的網路內容;合成引擎則會朝更精準的方向再優化──例如句構較複雜,牽扯到修飾語、行文風格、角色特質、內容形式等細節的長句,並且編排(compose)出適切內容。

以搜尋引擎為發展基礎而超越搜尋引擎,合成引擎可以說是全新的概念,如今在 AI 領域也被稱作「提示工程」(prompt engineering),指特定任務被轉換成以提示為運行基礎的資料集,語言模型再根據該資料集進行訓練。

♦ TO 延伸閱讀:從通訊設備到保險業都在用的「保密」AI 創新推手:合成資料

》下載 TechOrange 2023 趨勢觀察報告《

為何合成引擎能實現內容創作?

所有生成藝術創作的源頭都是某一則自然語言提示,隨後才有 AI 科技介入,進行文字-圖像的轉換、詮釋,並產出最終成果。

至於所謂的提示,則是指某段自然語言描述,被用來作為合成引擎、機器學習模型的輸入資料(input),也是使用者與演算法之間的溝通橋樑,把創意發想轉化為文字-圖像資料,再傳達給合成引擎。

所謂「提示」諸如:

荒廢的城市,空蕩蕩的建築,植被,超逼真,4K
女孩,新海誠風格,動漫,日本動漫的背景,80mm鏡頭,廣角,夜景,城市,建築,高細節
Kobe Bryant 罰球,鉛筆畫,逼真

……等等。

合成引擎本身,並非由工程師預先編寫完成,而是經由上百萬組文字-圖像數據預先進行訓練;更精確地說,演算法會接觸到上百萬張經過標籤處理的圖像,而這個訓練過程稱為「對比語言-圖像預訓練」(Contrastive Language–Image Pre-training,CLIP)。

在這樣的數據訓練下,AI 藝術生成工具會建立起某種程度的圖像理解,再根據這份理解、擴散模型(diffusion model)以及接收到的提示,生成藝術創作;而就像搜尋引擎的黑盒子排名演算法一樣,沒有人知道合成引擎會針對提示做出何種反應。也因此,給出好的、精心的「提示」對於 AI 藝術生成工具來說非常重要。

♦ TO 延伸閱讀:AI 領域創新腳步不停歇,跟上專家一致看好的 2023 年三項趨勢!

簡言之,不同於搜尋引擎被動取回網路資訊,合成引擎會根據使用者輸入的提示細節,主動編排出搜索結果。

不是 Echo 或 Siri,ChatGPT 才是開啟對話式搜尋的最終勝利者?

而對於像是 ChatGPT 這樣的聊天機器人工具而言,則有可能開啟「對話式搜尋」的新時代——一直以來,科技業相信像是亞馬遜 Echo 或 Google Dot 等智慧音響的出現預言著對話式搜尋的一場革命,然而基本上這尚未真正實現——ChatGPT 卻有可能改變這一切。

在 ChatGPT 上的搜尋體驗基本上優於 Google:它讓使用者不必點擊或滾動滑鼠上的滾輪瀏覽,而是直接給出答案,不過如同前文所說,由於 ChatGPT 這類工具需要訓練數據,因此時常給出過時答案——ChatGPT 的訓練數據中就不含蓋 2021 年以後的事件。

這是 ChatGPT 作為一個「搜尋引擎」的明顯限制,除非有辦法讓它連接上網路並且進行近乎即時的更新,這些問題基本上都可以被解決。然而,就像是生成圖像時的黑盒子演算法,ChatGPT 的另一個主要弱點是——它從不提供其答案的來源,而這很明顯是由於這些答案是從「不同的資訊來源合成出來的」,這也使得其正確性難以驗證。

TO 編輯前陣子已經試玩了 ChatGPT,當編輯請它撰寫一篇「關於蔡英文總統的貓咪的文章」就得出了以下結果:

結果 ChatGPT 給了我們近乎以假亂真的結果。

雖然 ChatGPT 不斷在回答問題時告訴使用者:「在使用(ChatGPT 提供的答案)之前應該根據可靠的外部來源驗證我提供的任何資訊」,也就是需要使用者從維基百科或 Google 搜尋中驗證資訊的真實/虛假、正確/錯誤,因此從以上限制來看,這類工具要「取代 Google」還需要一些時日。

不過,不可否認的是,ChatGPT 的確提供了對話式且全面的答案,且對於使用者來說更為便利(不必離開搜尋頁面、不斷滾動頁面/點擊尋找需要的答案,或者被前排的各種廣告結果所干擾)並且還可以根據要求調整其解釋:一旦要求 ChatGPT 為一個 6 歲的孩子解釋一個複雜的概念,它便會使用簡單的辭彙來讓 6 歲孩子一秒理解,卻也可以在下一秒轉換成只有專家懂的語言。

生成式 AI 大爆發!

掌握 2023 最新 AI 應用趨勢+企業行動方案一次看

→ 立即下載《TechOrange 2023 趨勢觀察報告

當然,所有人都非常好奇 Google 對於這類工具出現有何感想、是否擔憂會被取代——作為補充,專門研究 AI 的部門:Google AI 也有 LaMDA,跟 ChatGPT 同樣是對話神經語言模型系列, LaMDA 的訓練參數為 1370 億個,而 ChatGPT 則為 1750 億個——Alphabet CEO 皮采(Sundar Pichai)對這問題指出,Google 需要平衡大膽的願望並對需求更為負責。Google AI 負責人 Jeff Dean 則補充說道,由於涉及了聲譽風險,該公司在進行這類試驗時,「我們比小型新創公司更為保守,把這件事情做好是非常重要的」。

TO 延伸閱讀:AI 機器人 LaMDA 「有感覺」是真的嗎?簡立峰親自解答,人工智慧在語言辨識上的最新進展!

雖然 ChatGPT 給出的「單一答案」可能帶來非常便利的使用體驗,但也有其缺點,例如阻止了搜尋者從各類搜尋結果中得出自己的結論,而僅是呈現 ChatGPT 對於什麼是「真實」的解釋,而 AI 和演算法又特別容易受到偏見的影響,Mata 今年 8 月推出的對話式 AI 原型 BlenderBot 就因為侮辱了自家老闆祖克伯(Mark Zuckerberg)而上了頭條。

TO 延伸閱讀:Meta 的 AI 聊天機器人吃了誠實豆沙包?機器人:我不喜歡祖克伯,他超詭異

關於這類合成搜尋工具是否會取代 Google 這點上,還有一個值得關注面向:微軟是支持發表了 ChatGPT 背後組織 OpenAI 的投資者與合作對象,並且已經開始將由 DALL-E 2 提供的 AI 生成圖像顯示於 Bing 的搜尋結果當中,這很大程度模糊了搜尋以及生成 AI 之間的界線。

對於合成引擎是否即將取代我們熟知的搜尋引擎,現階段還沒有正確答案。不過,合成引擎的確正帶起一場藝術復興,類型包含音樂、美術、文章、影音等媒體。未來,我們更可以預期 AI 提示被運用於更多任務上,例如智慧合約創建、網頁 App 設計,甚至鑄造 NFT 再直接放上交易平台。

(本文開放夥伴轉載,參考資料:MediumDecentralized CreatorEconsultancy,圖片來源:Shutterstock