上班真的不能看的數據集,匯集近 23 萬張圖的「掃黃工具包」強勢攻佔 GitHub 排行榜

【我們為什麼挑選這篇文章】一份用來做掃黃工具的數據集,第一眼看覺得好像很正常,稍微仔細的思考了一下,恩…… 很有潛力呢,我…… 我是指工具的部分啦!

在此還是奉勸大家上班的時候不要打開,不然人家一定很難覺得你是在認真開發新工具呢,弄不好可能 真的會變成 hentai 的啊。(責任編輯:林子鈞)

本文經 AI 新媒體量子位(公眾號 ID:QbitAI)授權轉載,轉載請聯繫出處

作者:量子位/三井

近日,GitHub 上悄然出現一個內含 20 多萬張「不可描述」圖片的數據集。

這份數據集一共將內容分為 5 類,分別是:

hentai、sexy、neutral、drawings、porn

這份資源的貢獻者是一位名叫 Alexander Kim 的數據科學家。

他說,這些數據集可以用來訓練圖像分類器,使用 CNN 做出來的分類器,分辨上述的 5 種圖像準確度可以達到 91%。

當然,這份數據集的價值並不僅限於此。不論是做敏感內容過濾工具(比如鑑黃工具),還是各種圖像生成模型,相關的數據集都是必不可少的。

如果你有什麼想法,可以用這個數據集來練手了。

這個數據集資源,現在已經在 GitHub Trending 上排名第 3(2019/1/15 更新,目前已經成為榜首)。

數據集裡都有什麼?

數據集中,一共有 227995 張圖片。

其中,hentai 類別中有 45228 張;sexy 類別 19554 張;neutral 有 20960 張、drawings 有 25732 張;porn 類別最多,有 116521 張。

這些圖片,是以連結的方式呈現的。以 sexy 類別為例:

這些連結並不都是完全有效的,也有一些會出現 404 的情況。

不要問我是怎麼知道的……

怎麼使用這個數據集?

數據集的使用,主要依靠一些腳本(位於 scripts 目錄下)。分別是:

1_get_urls.sh:遍歷文本文件,在 scripts / source_urls 中下載上述 5 個類別中的每個類別的圖

像 URL。不過,這個腳本已經運行過了,輸出結果在 raw_data 文件中。如果沒有特殊需求,可以直接從下面的腳本開始運行。2_download_from_urls.sh:下載 raw_data 目錄中文本文件中找到的 URL 的實際圖像。

3_optional_download_drawings.sh:(可選)腳本,從 Danbooru2018 數據集下載適合工作場所的動漫圖像。

4_optional_download_neutral.sh:(可選)腳本,從 Caltech256 數據集下載適合工作場所的中性圖像。

5_create_train.sh:創建 data/train 目錄,將所有 raw_data 中的 .jpg 和 .jpeg 文件複製進去,並刪除損壞的圖像。

6_create_test.sh:創建 data/test 目錄,從 data/train 中隨機為每一類移動 N=2000 個文件。(如果需要不同的訓練/測試分割,可以在腳本裡改變這個數字)。也可以多次運行這個腳本,每次從 data/train 中移動每個類別的 N 個圖片到 data/test 中。

具體的運行方式如下:

不過,也有熱心的微博網友給出了一個使用方法:

運行環境

目前,這些腳本只在 Ubuntu 16.04 Linux 發行版中進行了測試。

需要的環境配置是:

Python3 環境:conda env create -f environment.yml

Java 運行環境:(Ubuntu linux):sudo apt-get install default-jre

Linux 命令行工具:wget、convert、rsync、shuf

傳送門

在給出傳送門之前,還是很有必要先發出預警:

上班時,不宜觀看數據集內容。

傳送門

Github 數據集推薦

GitHub 送上新年大禮包,私有程式碼庫從今開始免費!

擁有 17,000 顆星的 GitHub 大神開課!90 分鐘傳授,如何只用 JavaScript 建構神經網路

GitHub 神人整理出一份 Python 開源清單:15 個領域、181 個開源項目任你用

(本文經原作者 量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈內含 20 萬“不可描述”圖片,這個數據集千萬別在辦公室打開 〉。)


我們正在找夥伴!

2019 年我們的團隊正在大舉擴張,需要你的加入跟我們一起找出台灣創新原動力! 我們正在徵 《採訪社群編輯》、《助理編輯》,詳細職缺與應徵辦法 請點我

點關鍵字看更多相關文章: