維基百科產量最高的作者是機器人,它把「宿霧語」變成維基百科的第二大語言

Ljsbot 建立的一個條目。圖片來源:維基百科 ,作者 Spilochroa guttata

全球 最多人使用的語言 是中文,其次是英文、西班牙文、俄文、法文;而在維基百科上,最多人使用,內容最豐富的語言是英文,共有超過 600 萬個條目。那維基百科上第二大的語言是?

宿霧語(Cebuano),共有 538 萬個條目。

宿霧語是菲律賓人使用的語言,但使用人口僅約 2000 萬,遠低於中文、英文、西班牙文上億的使用人數;此外,宿霧語版維基百科的活躍用戶只有十多人,遠低於英文版的 10 萬人。

為什麼宿霧語是維基百科上第二大的語言?

宿霧語維基百科的內容創作者,是名為 Lsjbot 的機器人

因為宿霧語維基百科的創作者是機器人。該機器人名為「Lsjbot」,創作了宿霧語 99% 的維基內容。Lsjbot 的開發者是瑞典物理學家 Sverker Johansson,根據中國媒體《愛范兒》的描述,Johansson 開發 Lsjbot 的目的,是為了「讓所有人了解所有事。」

原因是,雖然維基百科是全球廣泛使用的網路百科,卻有「作者多樣性低」的爭議。研究發現,維基百科的創作者大多是已開發國家的白領階級男性;Johansson 表示,在瑞典語版的維基百科裡,關於《魔戒》角色的條目就有超過 150 條,但關於越戰的內容卻少於 10 條。因此 Johansso 質疑,維基百科真的是內容平衡的百科嗎?

因此,Johansson 希望用更有效率的方式,將維基百科推向「囊括一切」的願景。但為何 Lsjbot 是用宿霧語創作呢?因為 Johansson 的妻子是菲律賓人。

目前 Lsjbot 是維基百科中產出最多內容的創作者。

GitHub 上的 Lsjbot

宿霧語的人類創作者不足,Lsjbot 的創作引發反對

但 Lsjbot 的創作行為引發爭議。雖然從 2000 年代初期,機器人就已經應用在維基百科的創作上,但 Lsjbot 卻不斷受到其他創作者的抗議。主要原因是創作內容的「占比」。

其實,創作型機器人在維基百科上主要扮演「開拓者」的角色,負責創造新的條目,並放上最基本的資訊。這種條目就是「小條目」(stub),必須要由人類的創作者進一步補充內容,讓資訊更豐富。

用個比喻說明:如果創作型機器人要創造「新冠肺炎」條目,它的內容就大概是「新冠肺炎編號 COVID-19,屬於冠狀病毒,從中國武漢爆發」等基本資訊;但如果要再補充上基因序號、疫苗研發過程、擴散途徑、防疫措施等更為豐富的資訊,就需要由人類創作者撰寫。

因此,創作型機器人必須與人類創作者搭配,內容才可以完善。問題是,宿霧語版維基的活躍用戶只有十多人,管理員更只有 6 人,Lsjbot 卻創造出 500 多萬個條目,不但占宿霧語內容比例高達 99%,也遠超過管理者優化內容的能力。當用戶來到宿霧語版的維基百科,只會看到品質低落的內容。

曾有人提議關閉宿霧語版的維基百科,後來維基百科委員會沒有關閉它,但 Lsjbot 也停止在宿霧語版維基百科創作新條目,只負責維護類型的工作。

機器人負責處理繁瑣事務,是維基百科的重要幫手

機器人在維基百科裡有舉足輕重的地位。在 2018 年,維基百科上的機器人數就已經破千;而名為《The Roles Bots Play in Wikipedia》的論文研究了維基百科上的機器人,並將它們分為 9 類:負責創作新條目/頁面的 Generator、負責修復連結/文檔的 Fixer、更新數據並記錄用戶狀態的 Clerk、向創作者提供建議的 Advisor 等等。

這些機器人處理掉大量繁瑣的工作,減少創作者與維護者的工作量,讓人類可以為維基百科創造更高品質的內容。

在維基百科社區中,也有專門管理機器人的組織,稱為 Bot Approvals Group(BAG)。若有人想在維基使用機器人,就得先向 BAG 提出申請,闡述機器人的功能、程式語言,並說明它會涉及的頁面等等,得到 BAG 的批准後才可以用。即使是通過審核的機器人,若有開發者想為機器人新增功能,就得重新經過 BAG 的審核才可使用。

總結來說,維基百科使用機器人的由來已久,它們負責大量繁瑣的工作,扮演維護內容的關鍵角色。而 Lsjbot 是負責開創條目的機器人,是種普遍的機器人,卻因為創造出過多的宿霧語條目,遠超過創作者社群所能處理的內容而引發爭議。

Johansson 開發 Lsjbot 的原意,是為了降低維基百科的內容偏頗程度,卻引發新的爭議。機器人該如何與人類協作?又該協作到什麼程度?將是人類未來得持續面對的爭議問題。

參考資料來源:
1.《愛范兒》:〈 维基百科上最高产的作者,居然是一个机器人
(本文提供合作夥伴轉載。首圖來源: 維基百科

延伸閱讀

將量子運算結合機器學習,Google 開源 TensorFlow Quantum 訓練框架
GitLab 數據經理經驗分享:工程師當上主管,該專注於團隊還是 coding 技能?
【coding 護國】工程師在 GitHub 開打「主權捍衛戰」,讓台灣在疫情地圖重新正名


IT x OT 資安攻防戰!

工廠轉型最常碰到的「系統整合難題」怎麼迎刃而解?

馬上破解

 

點關鍵字看更多相關文章: