【老師救星】中國 AI 幫忙批改英文作文,北京 90% 高校採用、批改破億人作業!

【我們為什麼挑選這篇文章】人工智慧改作業可靠嗎?精確度雖然不一定比得上真人老師,但在中國,已經有超過一億人被「AI 老師」改過作業了。

這篇文章來自量子位,介紹中國目前人工智慧應用在批改作業的近況,如果能持續進步並大幅使用,相信能讓老師減輕不小的負擔。(責任編輯:康陳剛)

作者/量子位 夏乙舒石

本文經 AI 新媒體量子位(公眾號 ID:QbitAI)授權轉載,轉載請聯繫出處

你被機器批改過作業嗎?

最近,老外特別關注 AI 在中國教育界的進展,例如人臉識別進課堂、高中 AI 教材出版等等,這一次關注的焦點是:AI 代替老師批改作業

起因是,英文媒體《南華早報》最近有篇 報導 說,中國有大約 6 萬所學校都在用人工智慧來批改學生的作業,每四所學校中就有一所在用,這些學校分佈在四川、山東、安徽、北京等地。

學生們提交的英文作業,打分交由機器完成,而不是人類教師。作文批改系統,要比 Word 的拼寫檢查復雜得多。它能夠理解文字的一般邏輯和意思,對作文的整體質量做出像人一樣合理的評判,還要在寫作風格、結構、主題等方面給出改進建議。

據說,92% 的情況下,AI 和人類教師對一篇作文的評分是一致的。

這個籠罩 6 萬所學校的人工智慧,就是 句酷批改網 。在它的背後,是一個多所高校和公司共同推進了近 10 年的項目:語言智慧評測關鍵技術及應用。

數據顯示,這個機器教師的學生已經達到 1.2 億 ,還覆蓋了北京 90% 高校,以及所有區縣的中學。但它也像一道分水嶺,有些人壓根沒聽過。這一點也不奇怪。要知道 2016 年底,這個服務覆蓋的學校才 6000 多所。

也就是說,一年之間, 它覆蓋的學校數量增長了 900%

高分秘籍

學生對機器批改作業,感受如何?一個可見的情況是,你能輕鬆從微博上找到各種吐槽。

比如:「生活所有的痛苦都來自英語批改網和老師的公郵」

「受了批改網一肚子氣」

「就像相信批改網是垃圾。即使在批改網的排名是倒數也不影響就是這樣堅定地上交的決心」

說起這些,量子位的一位同事,默默地貼出她被批改網「支配」的往事:100 多字的英語短文,修改了 40 多次。

當人把命運交到機器手裡,心中總是有點不服氣。

於是不斷有人試圖證明,機器評分這套系統,不過爾爾。比如此前未來網就在 報導 中提及此事。

網友 TroyS 反映,一次專門到網上查到批改網各種 高分表達 並且用到作文裡,提交後得了 86 分,修改語法錯誤後分數變為 91.5 分。此後,該網友把「高分表達」刪除,試著用普通表達後,評分還是 91.5 分。

再後來, 試著刪掉最後一段、試著刪掉最後兩段,提交後的分數也都仍然是 91.5 分。但更令其吃驚的是,當該網友把最後兩段又貼回去後,分數變成了 90 分 ,並且此後修改了 17 次之多,但分數沒變過。

知乎網友猴賽雷也提到,通過使勁重複題目要求中的詞和句子、貫穿全文,結構以首先、其次這類 八股文模式 照搬,文內多加六級高級詞彙和句式等,再加上批改網推薦替換的詞彙都用上,最後就能得到高分,但是內容驢唇不對馬嘴。

未來網記者將網上找的《假如給我三天光明》的英文節選貼到批改網上,提交後得分 85.5 分,並提示標題「假如給我三天光明」的英文表達「疑似謂語缺失」。根據文後的按句點評修改兩處提交後,得分仍為 85.5 分。然而,當記者刪掉最後一段後,得分變為了 86 分。接著,記者又刪除第一段,提交後得分變成了 86.5 分。當記者再將第二段刪除後,分數又變成了 86 分。

總而言之一句話,機器批改作業,確實還有很多不完善的地方。

一位自稱曾經是批改網研發的用戶也表示:「批改網的批改原理是用多維度加權平均來給你打分。如果一個維度權重很重,你剛好改了之後這個維度的值降了,一加權自然就分數低了。」

「同學們加油,是機器就有漏洞,就看你們能不能總結出規律了。」

背後原理

機器到底是如何批改作業的?

在批改網的官方頁面上,對於背後技術的闡釋如下。

批改網的原理通過對比學生作文和標準語料庫之間的距離,並通過一定的算法將之映射成分數和點評。

2014 年多知網的一篇 報導 中,批改網創始人講述了更多的細節。我們摘錄如下。

批改網修改作文的原理是,作文提交後,網站將作文從詞彙、句子、篇章結構、內容相關度等 4 個大類 192 個維度進行拆分,每個維度都會與批改網建立的英語本族語語料庫(即國外英語文章的素材)作對比。語料庫越豐富,對比的客觀性就越高,機器批改與人工批改的一致率就越高。

比如,在作文中經常出現「learn knowledge」這樣的中式英語。將這樣的語言搭配與語料庫資料對比後發現,以英語為母語的國家中,使用 learn knowledge 的頻率為 0 次,使用頻率最高的是「have knowledge」。所以,會建議學生使用「have knowledge」。

再提供點新信息,根據《2018 年國家科學技術進步獎項目提名公示》中披露的內容顯示,批改網背後的技術「歷經近 10 年的潛心研究」。

其中列出的五個主要的創新點包括:

  1. 首次提出全信息語言評測模型
  2. 構建大規模評測本體知識庫
  3. 構建大規模評測語料庫和規則庫
  4. 提出篇章主題聚合度模型
  5. 提出文檔自動編輯和轉換模型。

不管細節怎樣,總有質疑說機器批改打分的價值不大,目前仍有一些不足云云。但是,這套系統可能真的擊中了老師的痛點。官方也把這個作為宣傳的重點:

老師們問什麼要使用批改網呢?上海交通大學的胡開寶教授說,批改網可以減輕老師負擔,提高學生學習積極性;清華大學楊芳老師:「以前學生追著我問『老師你改了沒有?』,在使用批改網後我追著學生問『作文交了沒有?』」。

系統的開發者們把它定位成一種輔助工具。對於缺乏教育資源的偏遠地區學生來說,一個批改作文的 AI 能為他們帶來不錯的寫作訓練;對於一般的學校來說,它能幫老師們搞定堆積如山的作業,加快批改的速度。

然而根據《南華早報》的報導, 老師們對作文批改 AI 的信任度並不是很高 。老師們依然認為,這個系統還不能算完美,有些很好的作文得不到高分。

其實,在作文批改 AI 出現更早的美國,機器打分早已有了更大膽的應用。測試機構 ETS 的作文評分系統 e-rater,從 2010 年開始,就開始正式參與托福考試作文的打分,一個人類評分員和 e-rater 給出的分數一平均,就成了托福作文的得分。

而這次被英文媒體關注的中國批作業 AI,老師們也只是在日常作業和小測驗中使用 AI 來批改打分,真正的考試,還不敢交給它。

(本文經 量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈 1 億中國人已被 AI 批改過作業 〉;首圖來源:Max Pixel,CC Licensed。)

延伸閱讀

1000 天打造上千堂課程、當老師還能月入 30 萬!線上學習 Udemy 到底在夯什麼
美國最火熱的 STEM 教育,歐巴馬大推,香港也立馬跟進!台灣卻還在原地踏步?
AI 顛覆傳統教育!印度新創用 AI 為學生打造學習計畫


【徵求產業線編輯 3 名】

工作內容與需求:

1. 高度關注國際科技趨勢、台灣產業新聞
2. 根據月度編輯台企劃,執行編輯、採訪與撰稿工作
3. 進行線上、線下媒體策展
4. 根據不同策展專案進行跨部門溝通
5. 針對網站數據做解讀與優化分析
6. 具有 2~3 年工作經驗的媒體工作者
7. 習慣閱讀《彭博社》、《財富雜誌》、《金融時報》、《Fast Company》者更佳
8. 目標導向思考,對準目標、彈性工作

【應徵方式】

意者請提供履歷自傳以及「相關文字作品」,寄至 [email protected]。來信主旨請註明:【應徵】TechOrange 社群編輯:您的大名

點關鍵字看更多相關文章: