中國高考數學難,人類考生拿狀元、人工智慧輸一分只能拿榜眼

【我們為什麼要挑選這篇文章】首先,必須要先釐清一個迷思。AI 人工智慧來考試,並不是「作弊」。因為並不是簡單的「輸入題目」—>「獲得答案」這麼簡單。

不然日本怎麼會有連續考四年都上不了東大的機器人出現呢》

【灰心宣布不考了】日本最努力 AI「東 Robo 君」挑戰東大連四年落榜,加油別哭嘛

而是必須從「理解題意」開始,試想一下,AI 要理解「庭院深深深幾許有幾種排列組合」,大概就可以玩死這群研究者,所以光是在「理解題意」這塊領域,就花了開發者一年的時間。

除此之外,兩支 AI 機器人,北京的 Aidam、成都的 Ai-Maths 用的是兩種思考模式上不同的技術,了解哪裡不同、以及哪一種模式對於人類未來的開發性較高,便是閱讀本篇文章可以獲得的最大收穫之一。(責任編輯:陳君毅)

這是一個普通的高考考場:考生就坐,準備就緒,開始答題。

但這又不是一個普通的高考考場:這裡不夠安靜。在一個大約三百平方的大廳裡,循環大聲播放著一首鋼琴曲,時不時還有女主持人和男性嘉賓的對話。大廳一排排的椅子上坐著興奮而略帶焦躁的觀眾,人們竊竊私語,似乎都對他的解題過程充滿興趣。

面對音樂和乾擾,考生表現出了卓越的心理素質。他全神貫注的解題,速度與質量沒有受到外界的絲毫干擾。他解開每一道題的速度為 7 到 15 秒。據熟悉他的人介紹,這是他放慢了六倍的結果。

他放慢的原因是:他不僅需要把題目做對,還需要給大家展示他是如何做到的。根據高考要求,他不能直接說話。他也沒有多餘的手來為觀眾進行演算。一切只能通過禮堂前部的大屏幕來展示:左邊是一個由無數藍色光點組成的大腦,每算一道題,藍色大腦裡就會跳出若干以紅色、黃色、藍色節點構建的知識鏈。每個節點旁邊有一行白色的字,標註著這道題涉及了哪些知識。

屏幕的右邊是正在演算的題目。藍色光標在題目末端閃爍,過一段時間打出一行字:那是他給出的答案。答案閃現的飛快,一些觀眾乾脆從椅子上站起來,想看清楚題目以跟上他思考的速度,但往往還沒有把題目讀完,就已經到了下一道題。

時間開始是六點四十:這比高考要晚了近五個小時。不過,在這場為他專門準備的考試裡,才開始了不到八分鐘,而他已經快把題目做完了。

最終,他答完了題。用時 9 分 47 秒。幾乎在他答完題目的同時,在兩千公里外的成都,另一個與它類似的考生,也已完成了題目。他們使用相似的屏幕輸出,做一樣的北京市高考數學卷,只不過那一位成都的考生用時要比他稍長些:22 分鐘。

經過數學特級老師、奧賽教練韓兆勇的評審,他的分數最終公佈:134 分。

為了衡量這個分數的價值,有三組高考狀元陪他一起進行測試:狀元一組得分,119 分。狀元二組得分,140 分。狀元三組得分,146 分。最終結果是,他的分數以 1 分之差,惜敗於最精英的人類「做題家」。(《TO》備註:應是有六名人類狀元組,平均起來贏 1 分。)

在另外一邊, 成都的考生也得出了結果。它的成績是 105 分。這一分數不如北京的考生一樣顯眼。但對他而言,無疑仍是個的進步——僅四個月前,它的成績只有 93 分。4 個月的時間裡,他就提升了 12 分。

這是兩位特殊的考生,正是中國歷史上,第一次正式參加高考的人工智能。北京的「考生」是學霸君推出的智能教育機器人 Aidam,而成都的「考生」則是由成都準星雲學科技有限公司開發的人工智能係統 AI-Maths 。在恢復高考的第四十年,他們來了。

為何要讓人工智能參與高考?人工智能有可能通過高考嗎?

在李世石和柯潔先後慘敗於圍棋 AI Alpha go 之後,「人機大戰」成為了許多媒體在報導機器人的過程中常常出現的詞語。或許由於此,在機器人宣布參與高考之後,網民的評論也日趨兩極化。一種聲音認為,人工智能參與高考,很可能是在「蹭 Alphago 的熱度」, 或是認為人工智能進行高考,如計算器計算數學題,有何意義? 而更多的人,即便承認人工智能參與高考有價值,也認為以高考的難度,人工智能要獲取好成績,仍屬不可能。

甚至在知乎「如何評價國產機器人將參加 2017 年高考?」問題下,有一個高票答案斷言「當今人工智能的發展,機器是不可能在非西藏,新疆等省份考入一本的,在新疆西藏考文科還有個一搏,理科是會死路一條。」對數學的估計是「估計 60~80 比較靠譜」。

在兩位人工智能參與高考的前一天(6 月 6 日),科大訊飛輪值總裁吳曉如及訊飛研究院院長胡國平接受媒體採訪,對這些問題做出了回應。

據吳曉如披露的內容和相關資料綜合,機器人參加高考,並不是所謂的「人機大戰」後才出現的噱頭。在國家層面,「高考機器人」是國家 863 計劃信息技術領域「基於大數據的類人智能關鍵技術與系統」項目的重要研究目標之一。該項目由科大訊飛聯合 30 多家科研院校和企業共同參與,早在 2015 年便已立項。

「高考機器人」有多方面的意義:聚集國內的一些比較頂級的研究機構和科學家,一起來攻關現在人工智能領域相關的一些重要的技術問題;替代傳統測試人工智能水平的「圖靈測試」,全方面測試和應用與人工智能相關的多個領域;最後將這些領域攻關所取得的技術成果,運用到相關行業和領域,如翻譯和車載控制等。

目前「高考機器人」仍在開發和完善之中,要 2019 年才會正式參加考試。但今年參與考試的「考生」之一準星雲學 AI-Maths ,與該項目有著密切關係。資料顯示,準星雲學的核心團隊於 2015 年參與了「基於大數據的類人智能關鍵技術與系統」,並主導子課題“ 初等數學問題求解關鍵技術及系統” 。後者正是 AI-Maths 技術的重要來源。同時,準星雲學還擁有智能推理解題判卷技術,即將數學知識體系全部串聯成知識網,能夠像人類一樣逐步思考、推理,最終對解題過程進行判定。

而另一個「考生」Aidam,則來源於學霸君。以拍照搜題為最初產品的學霸君,其產品已經有 6000 萬註冊用戶,答題搜索次數超過 60 億,老師在線答疑超過 500 萬次。

這一龐大的題庫和數據積累為 Aidam 的發展打下了基礎,「我發現,原來在我們的題庫裡面我們記錄了大量的關於狀態之間可跳轉、可推演、可演算、可關聯的信息。」

兩位機器人考生,兩種不同思路

在講解 Aidam 的背後邏輯的時候,學霸君的首席科學家陳銳鋒使用了圍棋作為比喻。類似於圍棋棋盤可以被分為無數橫軸和縱軸。人的思維模式和解題模式也可以被具象為棋子,棋子的縱軸與橫軸分別代表起始的狀態和下一步的狀態,這樣,每一次題目的可能解法,就相當於在一個龐大思維矩陣裡下棋的過程。而學霸君此前積累的龐大的題庫與數據記錄,恰恰類似於無數張圍棋棋譜,為人工智能自主學習提供了可能性。

儘管目標類似,但不同的背景決定了二者的不同的解題思路,甚至在一定程度上截然相反:準星雲學的 AI-Maths 與 863 計劃的高考機器人的思路一致,強調「不聯網、不連接題庫、無人工參與」。

在只有少量訓練樣本的情況(只有約 500 套試卷、1 萬道題的訓練量)以機器建立類似人類的複雜邏輯推理能力與聯想能力。試圖讓機器在較少樣本和較少資源耗費的情況下,擁有「舉一反三」能力。

而學霸君的思路則強調大題庫(已經有超過 7000 萬的巨大題庫),通過海量的題庫,用戶行為數據,以及 Ai 自我博弈,從海量題目中找到適合共通的知識元件和解題模式。從某種角度說,這兩種模式的區別類似於 Alphago 早期版本的學習過程,計算機可以通過規則自己對弈,也可以學習棋譜。從此前的測試中看,Aidam 的成績要好於 AI-Maths, 但如果以純粹人工智能的難度和多行業的延展性,AI-Maths 要略高一籌

理解數字很簡單,不過要「看懂」考卷卻很難

不過,儘管距離人類只有「1 分之隔」,但無論是 AI-Maths 還是 Aidam ,仍然有很長的路要走。

在四個月前的那次首次亮相中,AI-Maths 僅得了 93 分。事後,準星雲學 CEO 林輝在接受記者採訪時,認為它失分的重要原因來源於「無法理解題意」,它們缺乏人類生活的常識,它們無法理解「投資」、「理財」這些概念。

在現場,AI-Maths 的研究人員舉了一個例子:它可能能夠解決複雜的數學問題, 因為 1-9 的數字對它理解起來非常很容易。但是人工智能要理解「蘋果是什麼」卻很難 ,因為一個具象蘋果,需要非常多的描述。人類可以從小從生活經驗裡習得,而 AI 則不能。這也導致了,在語言相對更複雜,概念更多的應用題領域,AI 的難度要比人類解題大得多。

這一問題同樣困擾著 Aidam 的開發者。陳銳鋒簡要介紹了 AI 的答題過程必須經過三步:

第一步,從自然語言轉為形式語言,需要將復雜的數學題分析其中的語法結構,抽出其中的主謂賓,形成能夠讓 AI 理解的語句。

第二步,從形式語言進​​行自我映射、自我推理,並完成最終解題過程。

第三步,將解題完成後的機器語言翻譯回人類的語言。

僅在解決「如何將幾何語言轉化為機器語言」這一難題上,開發者就花費了整整一年的時間。此次的題目也是由人手工輸入,在一定程度上降低了 AI 解讀的難度。

但從整個 AI 行業而看, AI 對語言的理解,乃至對於主觀題的判斷,又比人們設想的更加迅速。據吳曉如在訪談中介紹,目前科大訊飛的智能閱卷產品,已經可以實現對主觀題,甚至對語文、英文的這樣一個作文題都可以實現自動的評分,包括給出詳細批語,甚至可以對學生們用的好的一些優秀的排比句,和名人名言給予針對性的鼓勵和評點。

另一方面,微軟小冰在 2017 年 5 月 19 日出版的詩集《陽光失了玻璃窗》獲得好評,被認為比起去年的高考作文有了很大的進步。

從以往的技術發展進度看。人工智能從第一次走進高考考場,到最終攻克應用題和語義理解難關,獲取較為優異的高考的各科分數,到最後考入清華和北大,只是時間問題。 或許真正的問題是,之後人們如何與人工智能相處,乃至借助 AI 的力量,讓教育變得更有質量、更個性化,也更加公平

例如此次的兩家公司:學霸君和準星雲學,其技術都包括了自動批改、智能評測、學習診斷等功能,這也逐漸成為目前的「AI + 教育」類產品的標配。

這不禁讓人聯想,2017 年 6 月 8 日,是中國恢復高考制度 40 週年。這 40 年,高考制度成功的打破了原有的社會壁壘,改寫了無數中國人的命運。那麼下一代,AI 走入教室和考場,是不是能改變人的命運?

——

(本文經合作夥伴 36kr 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈人工智能“邂逅”高考:那一天,機器人來了| 36 氪深度 〉;圖片來源:Rune Mathisen, CC Licensed。)

延伸閱讀

【灰心宣布不考了】日本最努力 AI「東 Robo 君」挑戰東大連四年落榜,加油別哭嘛

天才駭客少年用一隻「熊」駭進全場藍芽:「物聯網沒有做好保護,就全是漏洞」

從今天起,Google 的每一個服務、每一個位元,都是人工智慧

AI 人工智慧十大創新科技公司排行,我們離科幻片成真還有多遠?


科技報橘 LinkedIn 上線!

最新科技產業動態、技術新突破、專業職能技巧提升 ....... 鎖定 TO  LinkedIn 專業品牌,提升職能與產業 Know-how,躋身產業菁英之列 https://www.linkedin.com/showcase/techorange

點關鍵字看更多相關文章: