【我們為什麼挑選這篇文章】一份用來做掃黃工具的數據集,第一眼看覺得好像很正常,稍微仔細的思考了一下,恩……很有潛力呢,我……我是指工具的部分啦!
在此還是奉勸大家上班的時候不要打開,不然人家一定很難覺得你是在認真開發新工具呢,弄不好可能真的會變成 hentai 的啊。(責任編輯:林子鈞)
本文經 AI 新媒體量子位(公眾號 ID:QbitAI)授權轉載,轉載請聯繫出處
作者:量子位/三井
近日,GitHub 上悄然出現一個內含 20 多萬張「不可描述」圖片的數據集。
這份數據集一共將內容分為 5 類,分別是:
hentai、sexy、neutral、drawings、porn
這份資源的貢獻者是一位名叫 Alexander Kim 的數據科學家。
他說,這些數據集可以用來訓練圖像分類器,使用 CNN 做出來的分類器,分辨上述的 5 種圖像準確度可以達到 91%。
當然,這份數據集的價值並不僅限於此。不論是做敏感內容過濾工具(比如鑑黃工具),還是各種圖像生成模型,相關的數據集都是必不可少的。
如果你有什麼想法,可以用這個數據集來練手了。
這個數據集資源,現在已經在 GitHub Trending 上排名第 3(2019/1/15 更新,目前已經成為榜首)。
數據集裡都有什麼?
數據集中,一共有 227995 張圖片。
其中,hentai 類別中有 45228 張;sexy 類別 19554 張;neutral 有 20960 張、drawings 有 25732 張;porn 類別最多,有 116521 張。
這些圖片,是以連結的方式呈現的。以 sexy 類別為例:
這些連結並不都是完全有效的,也有一些會出現 404 的情況。
不要問我是怎麼知道的……
怎麼使用這個數據集?
數據集的使用,主要依靠一些腳本(位於 scripts 目錄下)。分別是:
1_get_urls.sh:遍歷文本文件,在 scripts / source_urls 中下載上述 5 個類別中的每個類別的圖
像 URL。不過,這個腳本已經運行過了,輸出結果在 raw_data 文件中。如果沒有特殊需求,可以直接從下面的腳本開始運行。2_download_from_urls.sh:下載 raw_data 目錄中文本文件中找到的 URL 的實際圖像。
3_optional_download_drawings.sh:(可選)腳本,從 Danbooru2018 數據集下載適合工作場所的動漫圖像。
4_optional_download_neutral.sh:(可選)腳本,從 Caltech256 數據集下載適合工作場所的中性圖像。
5_create_train.sh:創建 data/train 目錄,將所有 raw_data 中的 .jpg 和 .jpeg 文件複製進去,並刪除損壞的圖像。
6_create_test.sh:創建 data/test 目錄,從 data/train 中隨機為每一類移動 N=2000 個文件。(如果需要不同的訓練/測試分割,可以在腳本裡改變這個數字)。也可以多次運行這個腳本,每次從 data/train 中移動每個類別的 N 個圖片到 data/test 中。
具體的運行方式如下:
不過,也有熱心的微博網友給出了一個使用方法:
運行環境
目前,這些腳本只在 Ubuntu 16.04 Linux 發行版中進行了測試。
需要的環境配置是:
Python3 環境:conda env create -f environment.yml
Java 運行環境:(Ubuntu linux):sudo apt-get install default-jre
Linux 命令行工具:wget、convert、rsync、shuf
傳送門
在給出傳送門之前,還是很有必要先發出預警:
上班時,不宜觀看數據集內容。
–
Github 數據集推薦
擁有 17,000 顆星的 GitHub 大神開課!90 分鐘傳授,如何只用 JavaScript 建構神經網路
GitHub 神人整理出一份 Python 開源清單:15 個領域、181 個開源項目任你用
(本文經原作者 量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈內含20萬“不可描述”圖片,這個數據集千萬別在辦公室打開〉。)