《TO》 編按:原文摘自《TechCrunch》,以下以原作者  第一人稱編譯。

泱泱大國印度一直以來都無法順利完全登錄其國內人口的資料,但 Aadhar 計畫帶來曙光:印度的唯一身分識別計畫(Unique Identification Project)又稱為 Aadhar 計畫。該計畫近來所累計的人口資料與生物數據超過 5 億人,成為世界上同類型的生物識別資料庫中最大者。

Aadhar 成立幾年以來,持續在批評聲浪中前進。各界質疑其是否將威脅人民隱私與安全,而近來批評火力則聚焦在 Aadhar 蒐集、儲存以及處理資料的方法,許多人也擔憂美國新創公司 MongoDB 在計畫中扮演的角色。

MongoDB 為 NoSQL 資料庫,該公司去年獲獨立非營利機構 In-Q-Tel 資助,而眾人擔憂的重點在於 In-Q-Tel 為美國 CIA 與其他情資單位支持的機構。

  • 美國國安局或介入?Aadhar 合作夥伴 Mongo DB 引爭議

印度眾家媒體皆引述政黨與政治運動份子的觀點,質疑由 Infosys 共同創辦人 Nandan Nilekani 所領導的 Aadhar 如何處理敏感資料,其中有些報導直接將此爭議與 MongoDB 連結。

全球政府在美國國家安全局(NSA)的稜鏡計畫曝光後,對於美國政府情資單位無不萬分堤防,所以 MongoDB 與情資單位的關係必然引起憂慮。此外,由於明年大選在即,因此國內政治討論熱烈;又 Aadhar 正爭取今年通過議會立法,成憲法核准的單位。Aadhar 在此等時空背景下面對這些質疑與指控,挑戰無比艱鉅。

我親身拜訪 Aadhar 在班加羅爾(Bangalore)的辦公室。而根據與我交談的工作人員表示,雖然有人認為 MongoDB 與 Aadhar 的合約中包括共享資料,但事實上 Aadhar 僅使用 MongoDB 的開源程式碼,並不涉及敏感資料。而印度唯一身分識別局(UIDAI)也反駁指控,表示並沒有提供印度人民的資料給美國情資單位。

在這次訪問中我還瞭解到其他面向,諸如世界上最大的生物識別資料庫如何運作,以及如何處理安全與隱私問題,這些將在文章中向各位分享。

  • Aadhar 對印度的意義:進行人口普查,有效補助弱勢

Aadhar 出現的時空背景為何呢?在印度,超過 5 億人無正式身分識別碼(ID)或類似作用的編碼,因此這些人無法取得政府補助、開設銀行帳戶、貸款、考取駕照等等。

Aadhar 資料庫有機會解決這個問題:該計畫目前每天登錄超過 1 百萬名印度人,預計在明年底總計約達 12 億人,數目之龐大讓該資料庫成為全球最大生物識別資料庫。

對於印度人來說,擁有 12 碼的 Aadhar 編號有諸多好處,其中之一就是政府得以與國內貧窮人口的銀行帳戶連結,直接轉入現金福利及其他補助,目前已經有將近 4 千萬組銀行帳戶與 Aadhar 連結。

根據研究公司 CLSA,印度政府給予窮困階層的補助與福利共計為 2,500 億美元,而其中 40% 都會在接下來幾年內遭貪污殆盡。但若 Aadhar 能協助政府直接轉帳予需要幫助的窮人,該計畫便能從中阻斷貪污腐敗。

不過,許多智庫與社運份子,例如總部位於班加羅爾的網路與社會中心(Bangalore-based Centre for Internet & Society)對於 Aadhar 有些擔憂,他們擔心人民隱私問題,也懷疑整個計畫的效用。

  • 全球最大的生物識別資料庫:安全系統由前 Intel 工程師操刀

我與 Aadhar 內部人員約在其總部會面,我希望可以瞭解其安全狀況、目前進展還有他們對於外界有關 MongoDB 的指控如何反應。

Aadhar 的總部設在班加羅爾南郊,Intel 與 Cisco 的印度總部也設立在此。Aadhar 的科技中心外觀並不像政府機關的建築物,該中心內存有其蒐集之所有資料數據,目前數量為 5 PB。

當我走進中心內其中一間辦公室時,我看見十幾台電視螢幕架設在中央,大約 20 位年輕工程師全神貫注,邊盯著螢幕邊在電腦鍵盤上敲打以確認儲存資訊的資料包之動作,整個房間的氣氛與裝置頗像複雜精密的指揮室。螢幕上顯示的是大小約 5 MB 的資料包的整體處理過程:這些資料包先從全國各地約 3 萬間註冊中心登錄,接著通過至少三次驗證才處理完成。驗證時會重複審核每份資料以確定每人只有一組 Aadhar 編碼。

所以每份新註冊的資料都要與其他資料庫中的資料重新比對過,而現存資料量已經超過 5 億筆。

Srikanth Nadhamuni 為前英特爾工程師,在 2010 年 9 月時,他協助建立 Aadhar 的科技平台。他說這些資料包都是以 2048 位元保密技術所保護,而且若有未經授權者嘗試侵入,資料包皆會自動損毀。

  • MongoDB風波:Aadhar 表示 MongoDB 並未接觸到核心資訊

為什麼 Aadhar 當初選擇 MongoDB,又會不會繼續與這家新創公司合作呢?

Aadhar 科技中心的助理總幹事 Sudhir Narayana 告訴我,當初他們從許多資料庫產品(包括 MySQL、Hadoop 及 HBase)之中選出 MongoDB 來協助處理資料庫搜尋工作,MySQL 資料庫只能儲存人口統計數據,但 MongoDB 可以儲存圖片,比較符合 Aadhar 的需要。

然而,Aadhar 開始逐漸將其資料庫相關工作轉往 MySQL,因為他們發現 MongoDB 並無法應付數以百萬計的資料包。Aadhar 已經開始拆分資料庫,把資料包分存在不同機器上,藉此確保系統不致超載,此舉使 Aadhar 減少其對於 MongoDB 的依賴,並改以 MySQL 來儲存其大部分的資料。

該科技中心的副總幹事 Ashok Dalwai 表示 MongoDB 並無法取得任何生物特徵資料。Dalwai 表示 Aadhar 相信使用開源科技可以避免任一供應商獨佔該領域,但這並不代表他們不重視安全性。

當我聯繫到 MongoDB 發言人時,他們表示公司與其資金來源(包括 In-Q-Tel)之間的關係都寫在這份聲明中,供讀者參考。

更重要的是,印度唯一身分識別局開始使用 MongoDB 的開源軟體時,In-Q-Tel 尚未資助 MongoDB,且之間相隔時間並不短,而從 Cruchbase 的統計數據來看,也可看出 MongoDB 是在 2012 年時獲 Red Hat、Intel Capital 與 In-Q-Tel 的創業投資共計 770 萬。

  • Aadhar的發展前景為何?

縱然爭議纏身,工作人員表示,Aadhar 的登錄人數將在 2014 年底前超過 12 億,屆時該資料庫規模將達 15 PB。

目前該計畫每天登錄約 1 百萬人,Narayana 說他有信心,從明年起,每天的登錄人數將成長為 2 百萬,照著如此步調走的話,他們將順利把剩下 7 億人納入資料庫中。

而它是否能改革印度政府貪污陋習,並順利救濟其貧困人口呢?此點有待觀察,唯一確定的是,全球最大的生物識別資料庫仍繼續馬不停蹄地吞納源源不絕的資料。

(資料來源:TechCrunch;圖片來源:Juanlu Sánchez  ,CC Licensed)