編按:2023 年生成式 AI 即將引爆網路革命。不只 ChatGPT 走入大眾眼簾,年初矽谷更有 3 隻生成式 AI 獨角獸誕生(Cresta, Stability, Jasper),從文本、程式碼生成、圖像生成再到語音合成,這些生成式 AI 具有一定程度的「創造力」,在創作上達到了「更快」、「更便宜」的成果,AI 距離超越人類內容創作者,就只差「更好」了。
Google 台灣前董事總經理、Appier 、iKala 董事簡立峰在接受《TechOrange》 Podcast 節目〈全新一週〉專訪時,白話解釋「生成式 AI」,並表示學習使用 AI 工具,是未來所有工作者都必須具備的技能之一。
簡立峰在節目中談論:
- ChatGPT 與以往 AI 不同的是:它開始「講人話」
- 台灣如何利用這股趨勢並掌握住下一波機會
以下為節目專訪逐字稿。
《全新一週》主持人戴季全(以下簡稱「戴」)
戴:各位聽眾朋友大家好,我是戴季全,歡迎來到 2023 年全新一週,我們今年有很大的事情 ,有好消息、有更多的壞消息。今年開春第一位邀請的特別來賓就是簡立峰,立峰你好!
Google 台灣前董事總經理、Appier 、iKala 董事簡立峰(以下簡稱「簡」)
簡:季全好,大家好。
戴:我想直接切入一個大重點,我們在去年年底開始有越來越多關於生成式 AI 的討論,包含語音機器人,應該說語義機器人、文字輸入的機器人,是不是可以請立峰——當然立峰包含語義分析、早期搜尋引擎的建置,立峰都參與得非常多——是不是可以從你的專業角度,介紹什麼是生成式 AI,ChatGPT 這個新的機器人,到底和傳統語音機器人到底有哪些不一樣,或者有哪些可以觀察的地方?
簡:跟大家報告一下我的背景,我是 30 幾年前、1991 年台灣第一個做語言模型的本土博士,等待了 30 幾年,出現大型語言模型像 ChatGPT,是一種語言的 machine learning(機器學習)。
過去 AlphaGo 到現在這段時間裡,有一種說法是機器學習的能力呢,在電腦視覺能力是贏過人類的,所以你看可以做自駕車,也一直在探討語言能力,它可以辨識文字、把聲音變成文字,對於人類的互動理解,大多數假設是還沒有那麼快。
還有一個假設,如果你有看李開復的書,我的好朋友他常提到,人類還有什麼能力是機器不容易取代的?我們都講說是創造力,那創造跟創作有點不太一樣,我們也假設創作能力,機器不是那麼容易,那創作就是文字、圖畫、音樂的創作這個部分,就是內容的生成。
AI 開始「講人話」:未來人人都要學習 AI 工具,增強生存技能
簡:媒體業也是內容的生成,我們平常工作裡頭寫信也是內容的生成,可是這次生成式 AI,不管是 ChatGPT 與否,很驚訝地它效果超過原來預期,這個部份如果去解釋 ChatGPT 的話,大概用一個字來形容:它開始「講人話」,和其他的語言模型相比,如果你有留意昨天的 AI 大師,用他的說法是,他不覺得 ChatGPT 有技術上的重大突破,因為方法是來自原來的 transformer,當然大家可以講說是當時 Google 團隊做出來的 transformer,從那邊延續過來,但它做一個非常好的整合,而且整合之後讓一般人開始理解,電腦可以有閱讀能力、回答能力,這件事情在學界、科技界,過去兩三年應該已經知道可以到達這個 level 可是系統沒做出來了,連做研究的人也沒感受到那個威力,所以可以解釋說,今年可能是生成式 AI 的重大應用年,我們可以從這裡開始。
(編按:「AI 大師」指 Meta 首席 AI 科學家楊立昆(Yann LeCun),他不但是卷積神經網絡領域的奠基者,同時也是圖靈獎得主與貝爾實驗室學者)
戴:所以生成式 AI,它的英文是 generative AI 是說,從我的理解,立峰幫我看一下是否理解正確,就是說原本 AI 其實是分析大量資料,去找出 pattern、找出它的模式,增加它辨識的精確度,但生成式 AI 它可以去生成新的 content,包含文字、聲音或圖像,生成新的東西,我這樣理解正確嗎?
簡:可以這樣講,兩個概念:那模型叫 GAN,方法是怎麼去訓練它?好像有個老師問它一個問題,它給一個答案,這是好、這是不好。所以生成式 AI 一方面產生內容,但有一段新的學習是在教它這是好、這是不好,讓它給出越來越像這老師要的東西、方法。
可是它的應用面是內容的產生,兩個不同面向,內容產生以 ChatGPT 來講它可以寫信、寫程式,類似的比如說 Midjourney 它可以畫畫;音樂、作曲……這些都變成是一種生成式的內容。
老實說生活裡這類應用太多了,只是我們沒有想到,如果電腦可以做到這個階段,大量的應用就可以產生,像有一家公司叫 BuzzFeed,它是媒體代理商很出名的一家,它現在就講說資遣了 10% 的編輯,可是 30% 的內容改用 AI 做。以後大家都要學 AI 工具,加強你的生存技能。
戴:可以和 AI 合作的編輯比 100% 純種編輯更有競爭力。
簡:最主要它產出速度太快,它可以做翻譯,還可以做摘要。
戴:我有幾個思考點可以跟立峰討論看看,第一個最直接,假設像我們這種內容工作者、編輯為主軸的工作核心要素,它會變成說,其實我看生成式 AI 發展趨勢,有兩個大家比較不常提到的,一個是說它如果有越多人類老師在教,它才學得好。
生成式 AI 的編輯,它只負責想像跟創造,可是其實對或錯還是由人的感受來去判別,講話得不得體或正不正確,或是能不能夠產生有意義或有價值的一些內容。
簡:你可以說 AI 進步會比我們快,從現在開始它會更快,比我們個別都快,因為它是所有使用者來教育它,它可以不斷地學,而我們每一個人學習都是從個體的角度。
這有點像 AlphaGo 跟人類的圍棋高手,現在 AlphaGo 已經是老師,這些高手用它來學,比以前棋藝進步很多,所以對個體來講我進步了,但 AlphaGo 更厲害了。
戴:我看到有一些在生成式 AI 前面、丟數據之前,甚至會有另外一組 AI 去做審查的動作,當然嚴格可以變言論審查,但有時候是審查種族歧視的字眼、侮辱性或太過於暴力、不實的東西,有點像我們腦部運作,例如很多人會發現怎麼有些朋友喝醉了之後英文特別好?其實不是英文變好,大腦怕自己英文講不好,這個抑制作用被關掉了,所以他就變得敢講;是敢講、不是英文變好。
簡:應該是這樣講,人類有個前額葉,所以我們對於任何東西的反應並非單一反應,其實是多元的反應,但前額葉決定最終輸出。
例如喝醉酒喪失意志時,這個控制力就變差,可能冒出你原本沒想像會有的反應,包括說不定本來潛意識英語就蠻好,但以為自己英文不好就被壓抑掉。
現在 AI 模型也都是這樣,一層疊一層、一個模型接一個模型,所以 ChatGPT 絕對不是一個單一模型,它是好多服務整合在一起,所以它對任何一個服務都可以用自動分類去決定說,這是好或不好的回答,也可以自我審查,這樣它就可以控制。
講成俗話的說法是養小鬼,每個人都可以養成一個生成式 AI,可是要看這種大模型它願不願意讓你養,因為養一個也很貴,大型企業可以跟 OpenAI 要一個客製化的模型、其他人沒辦法,你只能跟他要一個一般式模型;一般式模型你就改不了。
戴:我看到矽谷有幾個現象,一個現象是說,根據估計,去年光矽谷跟生成式 AI 相關的新創大概就有 500 家,甚至還有一個統計說,去年一年,投資生成式 AI 的投資額就已經超過去年 5 年整個矽谷 VC 的投資了。
簡:不用太多人就可以新創了,幾個厲害的機器學習或 AI 學者、工程師就可以創業,所以它的加速會容易很多,但困難的地方在於有一點進入到……這可以拉回跟台灣有關,生成式 AI 第一個獲利的就是台積電,因為你需要大量訓練,之後如果晶片速度越快、成本越低,另外你需要大量伺服器,又跟台灣有關。
可是這些新創,創業很容易但很燒錢,這些是需要錢的,反而是這次的發展,資源不是放在人才而是基礎建設成本,這件事情最後真正能玩的企業絕對沒幾家,這些新創最終會被併購掉。
第三波網路革命來襲!台灣要把握機會,找一些應用領域來訓練數據
戴:這個過程,至少在我的事業歷程裡看到兩波:第一波是 1996~2000 網路泡沫,裡面有很多的新創。第二波大概是 2006、2007 年,就是第一支 iPhone 出來的時候,mobile internet(行動網路)立峰也有同樣的感受嗎? 這個是網路第三波趨勢?
簡:用第三波也可以,我們在幾個月前也假設那個第三波叫元宇宙,我那時候就堅持它不是,但這次我會講說是,但這個波動是不是能夠到人人都可以去做這件事情?應該不是。因為網路泡沫時,任何人都可以架網站,mobile internet 門檻也算低,學一下寫 App 就可以。
而這次門檻其實是高的,我們看到 ChatGPT,想像說我們有一個就可以做很多事,問題是你沒有那東西,那個東西訓練一次要一千萬美金,訓練失敗一千萬美金就不見了。
更重要的是找不到人類地球等級的數據量,這個數據平常就要蒐集,蒐集的過程恐怕幾億美金不見,而且現在人家願不願意讓你蒐集還是個問題,因為 copyright(版權)。
所以大家都只能在巨人的肩膀上做事情,可以探討說某些國家考慮要不要當那個巨人,用國家級的力量去推動,那大企業肯定就這幾家,但是在巨人肩膀上堆積木,它還可以創造前兩波應用的可能性,但這些可能性要有一個前提:就是這些大巨人願意開放部分的東西給你加值, 這個概念不是 call(呼叫)API,因為如果你 call API 去呼叫它,你的資料餵給它,是它的腦在進步,它不會給你客製化。
你希望是它分一個小腦給你,那個小腦你自己去加值它,大量餵你自己擁有的資料給它,這個發展模式就看哪家公司願意這樣做,有點像是我把現在 ChatGPT 當作客製化模型,每一家企業我給你一個,可是這每一個,從現在 170 個 billion 參數可能要 17 個 billion 參數,每一個可能都要 1000 台機器以上才能運作起來,那就又是大企業才能玩、中小企業沒辦法。
戴:這個很有意思。從第一波 1996 年開始,當然前面還有 PC 發展,那個時候第一波 IBM 做了一個決策,就是把 CPU 跟作業系統外包,所以就創造了微軟、Intel 這兩家,兩者又組成 Wintel 架構 386、486、586 處理器。講到那波我在大學,我就是一天到晚跑光華商場玩電腦。
簡:因為台灣也就那個時候可以組電腦,所以才有電腦公司的開啟,可是我們電腦裡 CPU、OS 不是我們的。
戴:第二波那時商業發展很有意思 Google 併購了 Android 這家公司,但它並沒有把它當作是一個商品,它把它 open source(開源)掉,所以現在反而變成全世界最多消費性運算單位 ,也就是智慧型手機,幾乎沒有微軟的作業系統,大部分都是 Android 類。
簡:包括 Chrome 也一樣,Chrome 也是開源,才那麼快可以超越 IE。
戴:所以第三波的 AI,當我們往回看第一、二波的經驗,其實我自己判斷,很有可能跟立峰你剛剛講的一樣,不只是開放 API 而已,它會開放一些不同的,因為它跟大腦突觸運作有關 ,有些處理視覺、聽覺、語言,有些處理跟大腦小腦的溝通;不同的世界、處理的任務不同時,腦部的電腦斷層會亮的地方不一樣……
簡:所以這是為什麼我們真正叫它「電腦」,它原來叫 computer,但我們台灣把它翻譯為電腦:electronical brain,這是第一次它真的變「大腦」,而這個大腦可以去買合適你的那個腦。
我估計如果你剛剛講第三波創造性,必然就是說,最強的它還是維持封閉的腦,透過 API 給你用;第二三四五名的可能會採取開源,像這波的科技發展為什麼那麼快?跟 Google BERT 模型 open source 有很大的關係,訓練好之後連大學生、中學生都可以下載小的參數模型,就可以做好多事情。
我估計它還是兩條路:一條是 iPhone 走的封閉式路,一條是 Android 走的開放式路,那我們可以拭目以待,有很多(公司)選擇開放、更強的公司選擇封閉。
戴:這個就是商業策略跟發展策略上面的差異。
簡:那如果要做應用,現在就要把握機會,要學會有一點叫 hybrid mode(混合模式):怎麼去應用已經有 API 可以 call 的模型,你可以運用多模型,不要綁在一個模型上,因為綁在一個模型它策略會改變,可能太貴、你也改不動它,可是在這個多模型裡頭,你還要再加上自己的 open source 找得到的模型,來訓練自己的東西,慢慢就變成說,我們腦有好多 ,大腦小腦延腦,我們自己去兜,兜那個腦。
戴:也就是說其實是不同的 pair(配對),譬如說我們作為企業主,每個人角色不一樣,有些可能是消費者、有些可能是 B2B,是可以在這樣的趨勢裡去組合出……像立峰說的養小鬼,或者說養一個虛擬的、看不見的助理,或是一個幫你判斷或思考的 AI,用戶的分析、行為的分析,甚至生成內容做客服、做 Content 等等。
這個對台灣來說,台灣有哪些機會是可以留意的?
簡:比較困難的問題來到軟體應用面裡頭,我們在雲端化的速度過去兩年有加快的現象,但還不夠快。另外一個我們在應用創造裡頭,數據的累積不管是 B2B、B2C 也都不夠快,雖然有進步,但全球來講規模都不夠大。
這種情形下 AI 應用是我們一個新的機會,但這個新機會裡頭,我們舊的底子不好,沒有太多的數據可以來訓練——假設今天要養小鬼,你也要有東西給它、要有食物餵它啊,這個食物都還沒準備好,別的地方馬上就變大鬼了,我們還在小鬼階段,這是先天不足的地方。
可是後生可畏、可以再追的原因就是說,它這個 legacy(既有做法)突破了,它又是重來一次,重來一次就是說這波養小鬼的,它擅長的東西是 AI machine learning(AI 機器學習),那不是在十年前、二十年前,可能擅長是電子商務、數位行銷的時代,它又是另外一批專業的人,所以概念上來講,大家的立足點,雖然我們先天還不夠好,但重跑一次不見得會比較差,這是一個條件。
另外一個就是,成功的企業會越來越少、越集中在幾個大的,我們本來是屬於在 AI 的中小型,反而跟越來越多的國家地位是公平的:這個邏輯是說,成就成大企業的公司根本不會太多,接下來還是中小型的 AI 企業,這種情形下,台灣恐怕不用再去追求大型的 AI 企業,因為那個數量級不是我們能玩的。
這個概念就很像說,我們的手機自己做,做到後來為什麼沒辦法擁有世界級的手機?HTC 曾經那麼好過,為什麼沒有辦法? 是因為如果你把手機生產當成本是不夠的,你要做行銷當成本才是關鍵。行銷費用最後比生產貴非常多,台灣就跟不上了。跟不上之後我們在做手機,本來有好多都可以做,到後來我們手機就變成一個不是大型的產業。
邏輯上一樣的概念,這次的軍武競賽裡,大型 AI 只會越來越大,因為它的科技證明一件事情、ChatGPT 證明一件事情:訓練資料量大就是有用。我們現在人類可以餵給那個腦的數據量還不夠,所以你現在垃圾丟進去都有用。
那這種情形下,有一點是說,它會形成 Apple 這種等級的,還是你去拿聯發科的公版自己加個殼就當手機,也可以,看我們要定位在哪,但是在應用上就要慎選應用。
選應用場景裡頭我們有使用者可以互動,短期間累積比較多的使用者互動 ,就有東西養小鬼,這個互動多的應用領域裡頭,也許我們現在還可以追,因為序幕才剛剛開始。
戴:我懂,也就是說其實我們不用一直去看國外怎麼做,然後想要去做一樣的事情,反而是說我們有個新的機會,去看說如果我們有哪些金山、銀山、live data(即時數據),因為我們數位轉型雖然有加速但還不夠快,數據蒐集的質或量都還不夠好,反而事先盤點、先看我們的痛點,或甚至我們的甜蜜點,我們先看這兩個點,在數據上面自己有相對優勢的數據。
把這些應用先設定好之後,去盡快地把這些數位轉型、數據蒐集、AI 的生成,趁這波浪潮,大家都在同樣起跑點的時候,去找出局部相對優勢,這樣就有可能除了原本的伺服器、晶片製造之外,可以再多一些中小型的生成式 AI 服務或應用。
簡:我舉例來講,假設今天 OpenAI 願意開放一個開源版本出來,雖然這個腦比較小一點,這時台灣就要把握機會,找一些應用領域來訓練數據,舉例來講,政府服務的 1966 把它過去有累積的建檔、那些 QA 希望它有建檔,問題就出在這裡,如果它沒有建檔,那我們就是浪費十年。
如果它有建檔,機會來了,因為學理上告訴我們,你把現在所謂的變形金剛 transformer 式的——ChatGPT 就是一個變形金剛——這種模型轉換到一個新模型,它資料量不用多、它學得很快,但還是要有一定的資料量,在這種情形下,比如說要幾十萬句幾百萬句的互動 ,大概是這種概念,我們就要去尋找說,我們現在哪裡拿得到?
比如說銀行客服的量可能是夠的,可是它當時有沒有建檔?我要的是一個測試可以訓練,這個動作反而是該準備的,每一家企業都該去準備,因為看起來,來的時候也很快它就到了。
戴:我原本真的很窄化地以為生成式 AI 衝擊的是比較偏 Content,可是我聽你這樣講起來,它生成的概念——對,你在搖頭,因為我們是 Podacst,聽眾看不到你搖頭——generative AI 它又沒有說它只有生成 Content,因為你看,我們原本 AI 假設放在醫療裡面,過去在講 MedTech…
對,過去 AI 只是說,比如可以提升 X 光片診斷的精確度,它只是辨識這張 X 光片可能是肺癌第零期,它可以看出很多、告訴你一些 facts(事實),生成式 AI 有個潛在的可能性,我要跟立峰很慎重確認一下,它不是只能做 X 光片的判斷,不是只能分析……
簡:可以跟你聊病情啊、互動。
戴:對,第一個它可以互動,第二個它甚至可以給一些可能的 solution,它可以給療法耶。
生成式 AI 不只是影響「內容生成」,而是「對話」領域
簡:對,雖然說現階段它有很多問題,等一下有空可以聊它的缺點在哪裡、它的限制在哪裡,但至少是這樣,生成的概念,我剛剛說「講人話」,那人講話在幹嘛 ?哇,多了,醫生講話在回答病人、法官可以判案,這都是講人話啊,所以 AI 在影響的是,我們叫做「對話」 dialogue 領域,不是 content generation(內容生成)而已,是「dialogue」。
戴:這一則以喜一則以憂,喜的是,不是只有我們這個行業要擔心;每個行業都有它的機會,甚至連商業策略、治療的策略、方案等等。
簡:大家想像中可以用到那裡 但是大家最後會很挫折是,為什麼 ChatGPT 這麼強,為什麼我的公司沒辦法用?原因就是你的特定用途,每一字每一句互動都希望回到你的應用。
今天 ChatGPT 就是一個維基百科,可是一個有學問的小孩子不會拿它來做什麼事,因為它回答有點無聊,你真的要他開個門、關個門,它不能開又不能關。
所以這個大腦用到每個應用之間有一個過程,新創要做的就是這個過程,不要再去玩那個大腦,全世界只有少數幾家來做就可以,但是你要把這個大腦,有能力把它分離出來,用到你的應用裡頭,成功訓練出來,那就很厲害。所以我覺得現在雲端服務公司,開始應該要往這裡做,幫人家訓練腦。
戴:我真的覺得在網路業是很幸福又很興奮的事情。立峰你剛剛講「講人話」,比如下命令就是一種人話。
像現在 ChatGPT 把這個大腦,不要說它分出來,應該說它另外長、給了一些突觸讓你另外長,某些東西訓練夠成熟可以到下指令,即便是開關門,像我們幾乎每天或常常會碰到的狀況是,我們會按門鈴說是誰?99% 的人都會說是我,不會講名字,所以聽的那個人其實是在辨識這個聲音:是我媽媽、女兒,還是誰?
這事情如果之後由 AI 來做,它就變成聲紋鑰匙,這就是生成式 AI 要去下指令,不只是辨識是或否,然後來決定開或關。
簡:是,但這又是我們在看 AlphaGo 很聰明,就以為它什麼都會的邏輯一樣。
生成式 AI 在每個應用裡頭又需要重新訓練好多東西,而且它牽涉到外部裝置,所以它是一個物聯網整合,開跟關也沒想像中那麼順利,因為每個裝置長得不一樣,這都是漫長的過程。
可是大方向來講,科技技術方面它有可能做得到,光這件事情投資就起來了,所以今年有沒有什麼好消息?有,就是生成式 AI 應用年,所以很多新創現在又活下來。
去年可能元宇宙喊一喊沒了、Web3 還有點走下坡,還不太確認雖然還有機會,生成式 AI 那些創投又有錢可以搬了,因為對人類說人話,那就讓創投可以說故事;創投跟你說故事,銀行的錢就可以搬出來,對於全世界的投資方向來講就有一點眉目。
(本集內容的圖片與音訊都由編輯與 AI 協作完成,首圖來源:dream.ai)
以上為專訪部分逐字稿,想要知道更多精采內容嗎?收聽並關注〈全新一週〉:第三波網路革命來了:2023 將是生成式 AI 爆發年!|S2 EP61 Ft.簡立峰