Kaggle 發布新冠病毒數據分析挑戰賽,邀請全球工程師破解病毒資訊

新冠肺炎病毒研究挑戰賽。圖片截至 Kaggle 頁面

【為什麼我們要挑選這篇文章】抗疫戰爭,工程師不會置身事外!有科研團隊建立新冠病毒的研究數據集(CORD-19),讓全球的研究人員使用;而 Kaggle 更組織了新冠病毒數據集挑戰賽,讓資料科學家使用 CORD-19 的數據,挖掘新冠病毒的資訊,而這些資訊有助於醫療團隊研發藥物、疫苗。大數據將是人類打贏新冠病毒的關鍵!(責任編輯:郭家宏)

最夯學術研究:新冠病毒開源分析挑戰賽

新冠病毒科研資料開源

由企業家保羅.艾倫創辦的艾倫研究所(Allen Institute)和世界領先的科研小組合作,建立了一個新的、結構化的開放研究數據集(CORD-19),全世界的機器學習社區都可以使用它,來推進新冠病毒(COVID-19)的研究。該數據集是一個統一的免費資源,包含超過四萬四千篇學術文章、超過兩萬九千篇有關 COVID-19 和冠狀病毒家族的病毒的資料全文,供全球研究團體使用。它旨在動員研究人員應用自然語言處理技術的最新進展,為對抗這種傳染病提供新的認知。隨著新研究每週發表在同行評審的出版物上,語料庫將隨之更新。

參加 CORD-19 挑戰:Kaggle 組織了一個關於新冠病毒的開源研究數據集挑戰,旨在激勵社區使用 CORD-19 的數據集,以尋找有關 CORD-19 的新發現。

報名連結 點這裡
數據集 傳送門

適用於多種人類語言的 Python 自然語言處理工具包

本文介紹了 Stanza,一個支持 66 種人類語言的開源 Python 自然語言處理工具包。與現有的其他工具包相比,Stanza 具有用於語言分析的不定語言全神經管道,包括標記化、多詞標記擴展、詞形化、詞性和形態特徵標記、依賴項解析和命名的實體識別等特徵。

研究人員表示,他們對 Stanza 進行了共計 112 個數據集的訓練(包括 Universal Dependencies 樹庫和其他多語種語料庫),來證明相同的神經體系結構可以很好地泛化並在所有測試的語言上表現優異。此外,Stanza 還使用了一個與 Java Stanford CoreNLP 軟體相連接的本地 Python 接口,這個接口進一步擴展了原有功能,從而能夠涵蓋其他任務,例如共引用解析和關係提取。

Stanza 的神經管道不僅涵蓋廣泛的人類語言,由於其結構設計與語言無關、只靠全神經網絡,因此也能在所有任務上都準確無誤地使用。

原程式碼、文檔和已經訓練好的模型(適合 66 種語言)傳送門
原文 點這裡

Structured3D:用於結構化 3D 建模的大型照片數據集

在這項工作中,研究人員展示了一個大型的合成數據集:Structured3D。它具有 21835 個房間豐富的地面真實 3D 結構註釋,和超過 19 萬 6 千個逼真的 2D 渲染。

這一數據集為大型的逼真圖象提供了豐富的 3D 結構註釋,可以用於各種結構化 3D 建模任務。

這個數據集還有許多潛在用途,研究人員從不同方向,進一步證明了它在增加真實數據和促進房間佈局估計任務的域適應方面的優勢。

研究人員認為,這項工作是建構智慧機器重要且令人興奮的一步,這種機器可以實現人類水平的整體 3D 場景理解。他們也將合成數據集與真實圖像結合使用,訓練深層網絡進行房間佈局估算,並展示了基準數據集的改進性能。

模型 在這裡
原文 傳送門

OpenImage 2019 第一名:對象檢測和實例分割

本文介紹了 OpenImage Challenge 2019 中兩個冠軍團隊的項目:分別是用於檢測軌道的「MMfruit」和用於分段軌道的「MMfruitSeg」。

在競賽中,研究人員觀察到,即使具有共享特徵,一個對象中的不同位置在兩項任務上的表現也完全不一致。例如,顯著位置的特徵通常有利於分類,而對象邊緣周圍的特徵則有利於迴歸。

從這個發現出發,他們提出去耦頭(DH)透過自學習的最佳特徵提取來解開對象的分類和迴歸,從而帶來了很大的改進。此外,他們將 soft-NMS 演算法調整為 adj-NMS,以獲得穩定的性能提升。最後,他們透過對邊界框的位置和信賴度進行分析,提出了一種精心設計的整合策略。他們的工作還介紹了幾種訓練/推理策略以及一些技巧,這些技巧可對檢測器進行較小的改進。

原文 傳送門

使用 MediaPipe 在移動設備上進行實時 3D 對象檢測

Google AI 最近發佈了 MediaPipe Objectron,這是一種用於日常 3D 對象的實時移動檢測方法。它可以檢測 2D 圖象中的對象,並通過在新建立的 3D 數據集上訓練的機器學習(ML)模型來估計其姿勢和大小。Objectron 在 MediaPipe 中實現,MediaPipe 是一個開放原代碼的跨平台框架,能夠用於構建處理不同形式感知數據的程式,Objectron 可以在行動設備上即時計算所面對物體的 3D 邊界框。

為了鼓勵研究人員和開發人員根據我們的演算法進行實驗和原型設計,Google 在 MediaPipe 中發佈了其設備上的 ML 管道,其中包括端到端演示移動應用程式(見連結)以及兩個經過訓練的模型。

開發者希望透過與廣泛的研究社區共享解決方案,並推進新的用例,新的應用程式和新的研究工作。他們計劃將模型擴展到更多類別,並在未來進一步改善我們的設備性能。

GitHub 連結
Demo 點這裡
原文 傳送門

其他熱門論文

在醫學圖像的背景下更深入地瞭解對抗性示例,了解基於深度學習的醫學圖像分析系統的對抗性攻擊

基於轉換器的、端到端的、語音識別語義掩碼

深度學習對 CT 圖像中 COVID-19 的肺部感染定量

TREC 2019 深度學習軌道概述

向可解釋的機器學習再邁進一步,透明的深度神經網路

AI 大事件

亞馬遜的研究人員開發了可改善知識導圖性能的 AI

用於改善機器人操縱性能的計算機視覺,Google 和 MIT 研究視覺轉移學習以進行機器人操縱

如何從 X 射線圖像中檢測到 COVID-19?使用 Keras、TensorFlow 和深度學習檢測 X 射線圖像中的 COVID-19

Microsoft Teams Update 添加了 AI 背景消除功能

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈一周 AI 最火论文 | 新冠病毒数据开源,Kaggle 发布新冠病毒挑战赛 〉。首圖來源:Kaggle 病毒挑戰賽頁面

更多關於程式的資訊

【工程師隱身術】200 行 TensorFlow.js 程式碼,讓你從視訊會議的畫面中「消失」
用這 6 種方式優化程式碼,讓你的 Python 速度提升 30%!
「不一定要會寫程式」比爾蓋茲:未來企業需要這 3 種背景知識的人才

點關鍵字看更多相關文章: