【頭貼一秒變名畫!】日本大叔從零開始學 AI 並自架「肖像生成網」,10 天訪客破百萬

【我們為什麼挑選這篇文章】你嘗試過讓別人為你畫肖像畫嗎?是否想像過自己出現在畫中會是什麼樣子呢?許多觀光區都會看到藝術家在替人畫人物肖像,但如果不想花錢,只要把你的照片上傳 AI Gahaku 這個網站,AI 就能在幾秒內將你的頭像變身栩栩如生的肖像畫。(責任編輯:賴佩萱)

本文經 AI 新媒體量子位(公眾號 ID:QbitAI)授權轉載,轉載請連繫出處

作者:量子位

最近,一位日本宅男大叔佐藤做了一個 AI 生成肖像畫的網站 AI Gahaku,10 天內用戶訪問量從 0 暴增到 100 萬,引爆推特。

簡單易操作,上傳一張人臉照片,就能生成一張大師級肖像畫,而比技術更神奇的是佐藤自己,因為他是自學 AI 做出來的,不得不佩服的宅男創造力。

可生成肖像畫的網站——AI Gahaku

佐藤患有阿斯伯格症 ——也被俗稱成「社交恐懼症」,名副其實的天才病,一般來說,此類患者會在某個領域具有特殊潛能,但不適應普通人的生活。

編按:根據台灣兒童青少年精神醫學會,亞斯伯格症候群(Asperger Syndrome,簡稱 AS),是廣泛性發育障礙(PDD)中的一種症候群,屬於自閉症譜系障礙(ASD),比較明顯的臨床症狀是社交困難、非語言能力的溝通障礙。此段落將亞斯伯格症與「社交恐懼症」做直接連結並不妥,另因每個亞斯個案狀況大不同,更不適用以「天才病」形容,容易加深大眾對此症候群的刻板印象。這段話應是想表達佐藤雖患有此症,但在特定領域仍有突出的表現。

當然,佐藤的技能點就點在了 AI 上。讓大叔此次聞名的 AI 技術,就是大名鼎鼎的 GAN 變種。

此次的人臉肖像畫生成技術,就是大叔在 TensorFlow 內置的 cGAN(條件生成對抗網路)中的 pix2pix 模型上改造而來。不同於 GAN 的技術通用性,cGAN 更強調特定場景下的發揮,比如 AI Gahaku 就只能針對人臉,如果用戶上傳的是貓臉,則無法生成結果。

對既有模型進行二次開發,肖像畫生成技術誕生!

GAN 的特點在於損失函數的自行計算和自動更新,這使得 GAN 本身具有和遷移學習結合的特質,在近年來的發展路徑上看,更多是把 GAN 當做手段,去實現遷移學習提出的目標,因為遷移學習為應用 GAN 提供了具體的方向。

TensorFlow 的內置 pix2pix 是基於 cGAN 的圖像對圖像翻譯的模型,模型本身已經成熟,直接調用便可運用到對黑白圖像著色、圖像風格變化等場景的使用。

具體回到大叔的使用上,利用 pix2pix 模型,大叔其實是將模型限定在大師肖像畫的生成上,這也體現了模型本身強大的擴展性。

如何使用,都取決於你自身。在佐藤的另一款作品 PixelMe 中,同樣使用 pix2pix 技術,但是生成的是 8 bit 的像素風格頭像,一個模型,多種用途。

當然,實際效果因人而異,畢竟嚴格來說,大叔是在對既有模型進行二次開發,原有的演算法和數據結構並未改變,因此性能和效果受到原有模型的限制。

從 TensorFlow 開啟的 AI 進階人生

大叔人生經歷可以說複雜,從大學退學後,先後做過麵包師,參加過護士學校培訓課程,但覺得都不太適合自己,直到他決定運用自己的才智,投身到 AI 的事業當中去。

於是,他決定從 TensorFlow 學起。

借助 Google Colab 的算力資源,大叔從頭按著 TensorFlow 教程學起,不過大叔也確實適合做 AI,而不是去蒸糕點。

在學習過程中,佐藤找到了適合自己的方向,遷移學習和 GAN,可以較好的實現圖像的再生成,使用不同的圖像訓練數據集,可以針對具體場景進行學習和生成。

GAN 屬於典型的非監督學習方法,核心原理是讓兩個神經網絡進行「對抗」,透過不斷優化參數來得到最優結果,自我博弈。這種技術主要用在電腦視覺領域,這也是佐藤選擇 GAN 的主要原因。得益於 Google 的慷慨,大叔使用的網站服務器和算力資源都較為便宜,大約為一天 20 美刀,大叔表示,在可接受的能力範圍之內,短期不會尋求商業化。

AI for Everyone!在紅了之後,大叔也沒消失。他認為這是在做自己感興趣的東西,而不是為了經濟利益,因此出於對技術的熱愛,佐藤開始了自己的 AI 之路,並在兩年之後上線應用。

這份為夢想而不懈努力的奮鬥精神,才是真正值得我們學習的。畢竟,不是每個人有勇氣去自學 AI。

(本文經合作夥伴 量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈頭像秒變像素風,宅男大叔自學AI打造大師級水準,火爆推特〉。)

你可能會有興趣

AD