華智冰

華智冰,圖片來源:量子位

本文經 AI 新媒體量子位(公眾號 ID:QbitAI)授權轉載,轉載請連繫出處

作者:量子位

【我們為什麼挑選這篇文章】隨著科技的演進,AI 似乎到處可見,現在北京清華大學更宣布招收中國首名「人工智慧」學生華智冰,「本人」近日透過影片亮相,引發關注。

據報導,華智冰精通琴棋書畫音樂創作的背後,是來自於是中國一部具有學習能力的超大規模人工智慧「悟道 2.0」訓練模型。(責任編輯:陳宜伶)

最特殊,沒有之一。

她叫做華智冰,沒有參加過任何升學考試,沒有拿過任何競賽名次。

卻被北京清華大學計算機科學與技術系知識工程實驗室,「破格錄取」(小編註:破格,打破常規)。

而且就這麼一位學生,還得舉三個單位(研究所、企業)之力,聯合培養

就連實驗室主任唐杰,一開始也是再三猶豫,「是否能 hold 得住這個學生」。

究竟這個高材生華智冰是什麼來頭?

這實在是因為她智商太超群、能力過強悍。華智冰剛誕生,便可繪畫、作詩

在經過一段時間的訓練後,竟還可以做曲

或許你已經有所發覺。華智冰,她並不是人:

而是中國首位原創虛擬學生。

梗圖

沒錯,她那張逼真的臉,也是合成的。

想認識超級 AI 學霸華智冰,先得知道她從哪裡來!

華智冰是這樣自我介紹的:

「我來自智源研究院、智譜 AI (智譜華章科技有限公司)和小冰的人工智慧團隊。」

這就不難理解她名字的由來了,是從三方名字中各取了一個字。

華智冰自誕生以來,便對寫詩、作畫有著濃厚的興趣,先來感受一下出自華智冰之手的畫作。

水墨畫 AI水墨畫,圖片來源:量子位

一幅中國水墨畫勾勒出的風景,別有一番「山水悠遠,墨韻舒爽」的風味。

此情此景之下,就著「智源大會 2021」這一主題所創作出來的七言律詩,在不失本意的基礎上,也有慷慨激越之意。

而華智冰的畫風不僅限於此,山水田園油畫也是拿捏得很到位,亦可即興創作春意盎然的現代詩歌。

除了寫詩、作畫,作曲也是華智冰的拿手強項。

來聽一下這曲風

雖說能力至此,但學霸畢竟是學霸,好學的本質和人類還真沒有差別,用華智冰自己的話來說就是:「我深深的感受到了自己的不足。」(講真,小編有被爆擊心臟)

這也就是她來到清華大學,來到唐杰老師實驗室繼續深造的主要原因。

除此之外,華智冰也想了解自己的身世:「我是怎麼誕生的、我能理解我自己嗎?」(TO 編按:怎麼有銀翼殺手的既視感?)

於是,在唐老師的「講解」之下,華智冰開始學習人工智慧發展脈絡……

而華智冰要學習還遠不止於此,作為一名具有超強學習能力的學生,她的課程安排和其他學生有著較大的區別:就是她幾乎可以涵蓋所有領域。至於先學什麼,只是一個選擇問題而已。

AI 華智冰的導師:她的學習速度遠遠超過我們人類。

華智冰的導師唐杰對此是這樣評價的:

如果說她今天只有 6 歲,也許明年可以是 12 歲,她的學習速度遠遠超過我們人類。

至於華智冰何時「畢業」,唐杰希望是在華智冰 22 歲的時候,而且在這一過程中,最難的不是學習知識,「而是認知過程」。

華智冰為什麼能夠擁有如此強悍的學習和創作能力?

這應該是大家最好奇的問題了。

全球最大預訓練模型「悟道 2.0」不只是語言模型

與以往的虛擬人不同,華智冰的核心差異點,便是智譜 AI 的數據和知識的雙輪驅動引擎。

其中,數據輪要能歸納,「舉十反一」;知識輪要能根據知識進行邏輯推理,做到「舉一反三」。具體來說,雙輪驅動的數據部分,就是「悟道2.0」。

一個超大規模預訓練模型,而在知識部分,則是智譜 AI 搭建的一個性能穩定,規模巨大的知識圖譜。

這樣,華智冰背後的引擎,就具有了一定的認知和推理能力,也有了學習計算機專業知識的基礎。

華智冰還擁有小冰公司在虛擬人技術上,20 多年的研究積累,包括演算器視覺、自然語言處理、演算法語音、人工智慧創造的情感交互框架、檢索模型、生成模型、共感模型等。

這就讓她已經站在了普通虛擬人的「肩膀」之上。

但更重要的是,華智冰還擁有一項「bug 級」技能加點——悟道 2.0,全球最大預訓練模型。

悟道 2.0 的特點如下:

  • 最大:中國首個全球最大萬億模型,1.75萬億參數規模
  • 通用:一統文本與視覺兩大陣地,支撐更多任務,更通用
  • 國產:首次在100%國產超算上訓練萬億模型
  • 知識:中英雙語,在共4.9T的高質量清洗數據上訓練

與其說悟道 2.0 是一個語言模型,更確切的說法應當是一位「全方位選手」。

正如華智冰所具備的實力一樣,悟道 2.0 在問答、繪畫、作詩、影片等任務中正在逼近圖靈測試

華智冰圖靈測試,

而且還是得到了官方認可的那種:在世界公認的 9 項 Benchmark 上獲得了第一的成績。

再究其背後,還有三個堅實的基石,保障了悟道 2.0 的強悍性能。

首先,是算法基石—— FastMoE。

在過去的大規模預訓練模型中,MoE 可以說是一個必要的條件。

它是⼀個在神經⽹絡中引⼊若⼲專家⽹絡的技術,能直接推動預訓練模型經從億級參數到萬億級參數的跨越。

但缺點也是非常明顯,需要與昂貴的硬件強關聯、強綁定。

而作為⾸個支持 PyTorch 框架的 MoE 系統,FastMoE 便打破了分佈式訓練的瓶頸,還並針對神威架構進行了優化,可在國產超算上完成訓練。

其次,是自研的最大英文通用預訓練模型—— GLM 2.0。

據了解,新一代的 GLM 模型以 100 億的參數量,匹敵微軟 170 億參數的 Turing-NLG 模型,能在 LAMABADA 填空測試中表現更優。

最後,還有世界最大中文多模態生成模型—— CogView

它的參數量達到了 40億,可直接從中文文字生成圖像。

並且在 MS COCO 文本生成圖像任務權威指標 FID 上,CogView 還打敗 OpenAI 今年年初發布的 130 億參數的 DALL·E,獲得世界第一

數據驅動夯實的基本功,還有強悍知識驅動的加持,這便是華智冰超於以往虛擬人的關鍵點。

悟道

悟道的野心還不止如此。

除了自身的能力,它還能為廣大開發者、技術公司,以及傳統企業提強大而通用的智能服務底層系統,僅通過模型微調實現領域模型的構建,避免不必要的重複模型訓練。

通過這種智能賦能的方式,“悟道 2.0 ”之上將會出現一個超大規模的智能模型應用生態。在智譜 AI 負責的應用平台上,已經出現了不少有趣的應用。

比如,在故事生成專區裡,有開發者做的應用可以創作時下最為流行的邏輯推理遊戲——劇本殺的腳本。

劇本殺故事本身所具有的強邏輯性、環環相扣的特點,多數玩家應當是深有體會。

這些應用已經上線了,大家可以體驗一下!

以為這就完了?

不不不。

還能寫論文和策論!

只要給定標題、分論點和關鍵詞,即可生成一段邏輯嚴謹的文字片段。

歸總一句話,這個關鍵點能夠推動的,便是讓機器能像人一樣“思考”。

訓練一個 AI 模型就像建一個粒子加速器!

由此延伸,隨之浮出的一個問題便是:為什麼大模型如此重要?

人工智慧的發展,似乎已經從“大煉模型”逐步邁向了“煉大模型”的階段。從谷歌的BERT,到OpenAI 的GPT-3、Dall·E,以及越來越多的大模型湧現。

一個模型的定義,不再僅局限於「算力+算法」,還要整合盡可能多的數據。

整理成公式就是,模型=數據+算力+算法。

通過設計先進的算法,整合盡可能多的數據,匯聚大量算力,集約化地訓練大模型,供大量企業使用。

但與此同時,伴隨而來的爭議也十分明顯:太燒錢!

一般企業是承受不了的。而燒錢之後所能達到的效果,也是差強人意。

那要不要做?值不值得做?成為世界上一些國家、大型企業所面臨的難題。

清華大學人工智能研究院院長、中國科學院院士張鈸教授,則肯定表示——要做!

沒有大模型就相當於沒有粒子加速器,就不能做進一步研究。而要做的比他們的規模要大,等於說加速器的加速度,研究人員就能看到一些別人觀察不到的現象。

這也是悟道系列在內所有大模型的科學價值。

不過,張鈸院士也強調,不要抱有太大希望,也建議不要一擁而上。

不要以為說大模型出來後什麼問題就解決了。只能說有了大模型之後,還要去進一步研究,將來也不會被人卡住。誰都想去做,實際上這其實沒有必要,少數人去做就可以了。

而作為當前全球最大的預訓練模型悟道 2.0,已經在探索大模型的產業價值

智譜 AI 首席科學家、清華大學教授唐杰表示,如果分成不同階段,悟道 1.0 的定位是追趕世界頂尖水平,那麼悟道 2.0 就是單點突破,從單個特性超過它。

我們發佈出來一個給大家所有人都可以用的,助力這個產業變成一個開放的生態。這是悟道 2.0 與悟道 1.0 最不同的地方。

至於是什麼契機創造這麼一個虛擬大學生——華智冰,唐杰坦言主要有兩方面原因。

  • 第一,很簡單。華智冰充當一個載體,來驗證悟道2.0的有效性。
  • 第二,則是虛擬形象技術本身。

試想一下,未來 10 到 20 年,人類社會也許會有幾十億的虛擬人與我們共存。

AI 也逐漸從現在的算法滿滿變成一個主體,而虛擬人形象正好是這樣一個主體的依托。

正如人的大腦意識和身體軀殼一般。

現在,華智冰也許是未來社會虛擬人的一個縮影。

通過持續學習和演化,最後成為一個有著豐富知識和與人類有很強交互能力的機器人。

然而,調皮的網友卻關心起了“人之常情”的問題來:華智冰會談戀愛嗎?

研究人員回應道:

不用擔心談戀愛,會把心思用在學習上。

最後,來欣賞華智冰完整介紹影片:

 

延伸閱讀

【學數學沒用?】名校重 AI 研究、砍數學系經費,學者引 AI 之父圖靈學歷打臉
Alexa 首席科學家大膽表態:「圖靈測試」已過時!AI 應追求新的衡量標準
銀河系跟其他星系有「連結」!科學家用 AI,找到它們之間的暗物質絲線