Facebook的系統一天要處理25億件的訊息和500TB以上的數據!

這些數據推動了27億個按「讚」動作、一天3億張的照片上傳量,以及每半個小時掃描約105TB的數據;Facebook也為這些數據制定了一個新的「稜鏡項目(Project Prism)」細節。

Facebook的工程副總裁Jay Parikh表示:「培養大量數據的洞察力,會影響你的工作;如果你不好好利用你所蒐集的數據,那你只是擁有一堆數字,不會獲得重要的資訊」;藉由幾分鐘處理數據的能力,Facebook可以了解用戶對用卷軸捲出新產品的反應,並在短時間內修改設計,所以數據對Facebook來說非常重要。

「其實沒有人會在乎你公司倉庫擁有100PB的數據,但隨著你攝取數據的速度不斷地增加,這個世界就會越來越渴求數據」,當然這些數據並不只對Facebook有用,對和Facebook合作的廣告商來說也很有用,因為Facebook一直有在跟蹤廣告用戶的性別、年齡和興趣。

而前面提到的「稜鏡項目」,讓Facebook可以藉由一些機制的設置來蒐集整體資料,並同時保持單一數據的瀏覽。意即,Facebook內部同時為這些數據設置權限,讓同一份數據在不同的部門展現不同的部分,而不是全部都顯示出來。

當然Facebook用戶可能會為此感到很沒有安全感,畢竟Facebook員工可以深入這些數據來知道他們的活動。但Facebook表示,他們為這些數據加上了層層保護,所有內部員工的查看紀錄也都會被記錄下來;如果有員工擅闖沒被授權的數據庫,就會被解雇,因為Facebook有一個「零容忍政策」。

這樣看來,百度真該跟Facebook學習一下怎麼制定政策,之前就不會出現「員工收賄幫忙刪除負面貼文」這麼大的簍子了

補充資訊:TB=1000GB,PB=1000TB

(資料來源:TechCrunch;圖片來源:Ars Electronica, CC Licensed)