
【為什麼我們要編譯這篇文章】2019 年 OpenAI 的自動寫作模型 GPT-2 引起眾人驚艷,只要打入標題,AI 就會在 5 秒內自動虛構出一篇文章,且文筆好到讓人害怕。如今 GPT-3 已到了測試階段,其海量的參數以及強大學習力,儘管令人好奇,但也引發眾人擔心:未來的網路世界是否會更加的「假新聞氾濫」呢?(責任編輯:呂威逸)
人工智慧時代來臨,語言學習模型技術持續創新,未來我們可能不需要親自撰寫就會有機器人幫你生成文章、可能寫網頁程式不需要懂得艱澀的程式語言代碼,只需要在搜尋列中輸入簡單的指示,一套強大的語言學習模型 GPT-3 可以幫你一鍵生成你要的指令。
GPT-3 問世,寫網頁撰寫文章通通難不倒
AI 研究機構 OpenAI 在今年 5 月發佈新一代學習語言模型 GPT-3(Generative Pretrained Transformer),並在 7 月份開放封測,GPT-3 是一款通用的自然語言處理模型(Natural Language Processing,NLP),透過神經網路模型可以分析語料,包含字串、文章等的工具,並在此基礎上擴展,產生全新的文本。
因為是自然語言處理模型,只需要在 GPT-3 中的輸入框裡用一般使用的語言進行描述,就可以幫你生成出你想要的東西,不管是網頁代碼、撰寫文章、答題、統計、翻譯,通通都難不倒 GPT-3。
簡單指定就能寫出文章,成功騙過一票人
區塊鏈新創 OpenZeppelin 技術 Manuel Araoz 日前就在 Bitcointalk 論壇發表了一篇文章「OpenAI’s GPT-3 may be the biggest thing since bitcoin」,一篇看似充滿介紹 GPT-3 的文章與分析講得頭頭是道,但其實 Araoz 在文章中告訴大家,這邊文章根本不是他所寫,是他透過 GPT-3 並利用簡單提供個人簡介、訊息跟所需的標題跟標籤,GPT-3 就能自動生成出一篇文章,甚至他根本從來都沒有在 Bitcointalk 論壇上發佈過任何內容過,卻成功騙過大部分的 Bitcointalk 成員。
在來看看其他人還用 GPT-3 做到哪些事情:
This is mind blowing.
With GPT-3, I built a layout generator where you just describe any layout you want, and it generates the JSX code for you.
W H A T pic.twitter.com/w8JkrZO4lk
— Sharif Shameem (@sharifshameem) July 13, 2020
這名測試的網友在 GPT-3 上輸入了「一個像是西瓜的按鈕」指令,不到幾秒時間, GPT-3 就做出了一個上面寫著「西瓜」、並有紅綠顏色的按鈕,並且提供了代碼可以直接被使用在網頁架設上。
=GPT3()… the spreadsheet function to rule them all.
Impressed with how well it pattern matches from a few examples.
The same function looked up state populations, peoples' twitter usernames and employers, and did some math. pic.twitter.com/W8FgVAov2f
— Paul Katsen (@pavtalk) July 21, 2020
而這名網友透過 GPT-3 進行人口普查,來統計美國各州人口數,可以看到只需提供 3 個州的人口數,並在函數中進行設定,GPT-3 就會自動找到其他州的人口數字。
和大多數的語言模型一樣,GPT-3 也會利用未標記的文本資料庫進行訓練(例如數據集 Common Crawl、維基百科都是 GPT-3 的學習資料庫),各種單字或句子會隨機從文本中被移除,而語言模型就會藉此來學習如何用上下文來生成新的文本,因而生成更強大的模型。
1750 億的海量參數,使學習、模擬更有依據
可以做到這麼強大的功能,GPT-3 的厲害之處是因為它是目前學習參數(parameter)最多的語言處理模型,達到 1750 億個參數。雖然 GPT-3 跟他的上一版本 GPT-2 的運作邏輯是相同的,在技術與架構上並沒有非常創新,但 GPT-3 的參數量是 GPT-2 的 100 倍以上,光靠這點就與上一代,甚至是其他競爭對手拉開到另一個檔次。
GPT-3 的 1750 億個參數可以帶來的好處就是,這可以為模型的語言預測帶來飛躍性的改善,可以透過這些海量的參數進行訓練,來模擬出在世界上比較可能會存在的模型。例如,GPT-3 就會知道「我帶我的狗去散步」的標記,會比「我帶我的香蕉去散步」更有可能存在,來提供更精準的指令結果。
三秒就能生成新聞,外界憂假消息充斥
也因為如此海量的參數量,GPT-3 已經可以做到包括答題、翻譯、寫文章、算數和寫程式的功能。由 GPT-3 所寫的文章甚至幾乎達到了以假亂真的地步,在 OpenAI 的測試中,人類評估人員也很難判斷出新聞的真假,檢測準確率僅為 12%。
雖然 GPT-3 目前仍還處於封測階段,還未正式對外公布上市,這套先進的語言模型或許會給大家帶來驚豔與便利,不過也有不少人擔心未來像 GPT-3 若是發展得過於強大,恐會讓網路世界充斥假消息、或是遭到濫用,這可能也是 OpenAI 需要著手面對的問題。
參考資料來源
《The Next Web》、《動區動趨》、《Manuel Araoz》、《Camille Xu》
(本文提供合作夥伴轉載。)
你可能有興趣
- 文筆好到「太危險」!OpenAI 新自動寫作模型,將成假新聞製造產地?
- 假新聞下一步:連記者頭貼都用 AI 生成,他們甚至有超真實的 LinkedIn 帳號
- 微軟攜 OpenAI 開發超級運算技術,打造全球第五強 AI 超級電腦!