【我們為什麼挑選這篇文章】身處數位行銷的時代,除了準備好文字內容,有一張圖文符合且好看的圖片不僅是抓住民眾目光,更是提升 SEO 的關鍵,然而你也常常遇到:輸入多組關鍵字仍找不到想要圖片的困境嗎?現在 OpenAI 開發一款圖像辨識技術,只要簡單幾組白話詞彙,就能在線上找到圖片。 (責任編輯:何泰霖)

本文經 AI 新媒體量子位(公眾號 ID:QbitAI)授權轉載,轉載請連繫出處
作者:量子位

別再怕圖片搜尋結果牛頭不對馬嘴了,你可以試試這個精準圖片搜尋工具,來自OpenAI 最新的技術 CLIP

只需一句簡單的「白話描述」,便能給出想要的圖片。

例如輸入:The word love written on the wall,就會得到這樣的結果:

可以說是相當精準了!這就是近期在 Reddit 上爆紅的一個項目。

這個項目利用到的,便是 OpenAI 前不久新推的技術 DALL·E 中的核心模組—— CLIP,一個負責重新排序(rerank)的模型。

這個項目使用 Google Colab Notebook,而且在線、免費,包含 200 萬圖片數據資料庫,最重要的是效果還非常的精準,讓網友直呼 Amazing !

怎麼用白話文精準搜圖?

這個項目之所以如此,操作簡單是很重要的原因之一。

首先要做的,就是點開該項目在 Colab Notebook 中的網址,登入自己的帳號。

至於程式環境怎麼安裝、資源庫怎麼載入?這個網站非常貼心的已經做好了,只需要依次點擊 cell 左側的小三角,等待完成即可。

最後,來到以下程式碼的 cell,在雙引號之間輸入你想搜尋的內容,例如兩隻狗在雪地中玩耍,

search_query = “ Two dogs playing in the snow ”

再點擊三角按鈕,便可得到搜尋圖片的結果:

當然,這個程式似乎很懂人,若是輸入「當你的程式成功時的心情」(The feeling when your program finally works),結果會跑出:

得到的照片結果,和正常人想像中的應該是一致的!

為什麼 CLIP 搜圖能如此精準?

OpenAI 前不久推出的 DALL·E,主要能實現的功能就是可以按照文字描述、生成對應圖片。

而其呈現給我們的最終作品,其實是它生成大量圖片中的一部​​分,這之中其實也有排名、打分的篩選過程,這項任務,便由 CLIP 來完成:

只要圖片越是它看得懂、匹配度最高的作品,分數就會越高,排名也會越靠前。

這種結構,有點像是利用生成對抗網路,以合成圖像的 GAN 。

不過,與 GAN 利用擴大圖像分辨率、匹配圖像-特徵等方法相比, CLIP 則選擇直接對輸出進行排名。

據研究人員表示,CLIP 網路的最大意義在於,它克服了深度學習在視覺任務中,最大的兩個問題。

首先它降低了深度學習需要的數據標註量

相比於手動在 ImageNet 上,用文字描述 1400 萬張圖像,CLIP 直接從網上已有的「文字描述圖像」的數據中進行學習。

此外,CLIP 還能「身兼多職」,在各種數據資料庫上的表現都很好(包括沒見過的數據資料庫)

但過去大部分的視覺神經網路,只能在訓練的數據資料庫上有不錯的表現。

例如,CLIP 與 ResNet101 相比,CLIP 在各項數據資料庫上都有不錯的檢測精準度,但是 ResNet101 除了在 ImageNet 以外,檢測精度都表現的不太好。

具體來說,CLIP 用到了零樣本學習(zero-shot learning)、自然語言理解和多模式學習等技術,來完成圖像的理解。

例如,描述一隻斑馬,可以用「馬的輪廓 + 虎的皮毛 + 熊貓的黑白」。這樣,網路就能從沒見過的數據資料中,找出「斑馬」的圖像。

最後,CLIP 將文字敘述和圖像理解結合起來,預測哪些圖像,與數據資料庫中的文字能完成最好的配對。

在驚嘆 CLIP 用「簡單的白話」就能搜尋圖片之餘,一位 Reddit 網友還發現了一個挺有意思的搜尋結果。

他在文字敘述的程式碼中輸入:「What image best represents how you feel right now?」

這句話在我們人類眼中,應當是詢問 AI 的語氣了,然後出來的圖片結果是這樣的:

嗯,看來是被「玩多了」,AI 寶寶有點小脾氣了。

最後附上:CLIP 傳送門

(本文經 AI 新媒體量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈用“大白話”精準搜圖,OpenAI的CLIP驚艷了所有人| 在線可玩〉,首圖來源:擷取自 Google Colab Notebook。)

你可能有興趣

【你敢說 AI 都能畫】OpenAI 新模型把文字變成超現實畫作,連「酪梨躺椅」都生出來!
文筆好到「太危險」!OpenAI 新自動寫作模型,將成假新聞製造產地?
OpenAI 用《Dota 2》示範血虐人類:砍瓜切菜偷推塔,職業選手被當菜打