AI 技能正在貶值!前 Google 工程師:21 世紀最性感職業將碰到「瓶頸」

【為什麼我們要挑選這篇文章】數據科學家被稱為最性感的行業,有越來越多的人運用 AI 創業,也因為這熱潮,投資者願意拿資金投入 AI 新創產業,但文章指出不同看法,認為以 AI 為商品販賣的公司,容易因為對手資金龐大或是技術容易抄襲,而失去競爭力。 (責任編輯:黃穗懷)

「《科技報橘》徵才中!跟我們一起定位台灣產業創新力 >> 詳細職缺訊息
快將你的履歷自傳寄至 [email protected]

我們正處於 AI 創業熱潮之中,機器學習工程師的薪資水準水漲船高,投資者也樂於對 AI 初創公司慷慨解囊。 AI 的普及成為推動社會生產力標誌,必將改變我們的生活。

但是,本文作者前 Google工程師、Inovo.vc 的 CTO Ric Szopa 認為,AI 從業者的技能正在貶值。他從一個選擇題入手告訴我們,AI 工具、資料庫、資金投入以及行業 +AI的優勢正在一步步弱化單一的 AI 基礎技術優勢。

先來做一道選擇題。

Alice 和 Bob是兩位 AI 創業者, 他們的公司籌集了大致相同的資金,並在同一個市場上展開了激烈的競爭。

Alice 把大部分錢花來雇傭最好的工程師,請來了一批在人工智慧研究方面經驗豐富的博士。

而 Bob 選擇雇用資質一般但還算能幹的工程師,並將省下來的錢用於獲得更好的資料。

如果是你,你會給誰投資?

當然是 Bob。

為什麼呢?

從本質上講,機器學習的原理是從資料中獲取資訊,並將其轉化為模型權重。 更好的模型使得這個過程更有效(時間或者整體品質方面),但如果假設模型訓練相對都比較充分,更好的資料肯定會產生更好的結果。

為了說明這一點,讓我們再進行一個快速而簡單的測試。

假設我創建了兩個性能不太一樣的卷積網路。 「更好」的模型的最後一個全連接層有128 個神經元,而「稍微差一點」的只有 64 個。 我在不同大小的 MNIST 資料庫的子集上訓練它們,並繪製模型在測試集上的準確率與訓練樣本數的折線圖。

藍色是「更好」的模型,綠色是「稍微差一點」的模型。

很顯然,訓練資料庫大小具有積極影響(至少在模型開始過擬合和準確率達到穩定之前)。 值得一提的是,在 40000 個樣本上訓練的「稍微差一點」模型的準確率比在30000 個樣本上訓練的「更好」模型的準確率要高!

在我的小例子中,我們處理的是一個相對簡單的問題,而且有一個比較全面的資料庫。 而在現實生活中,我們的條件並不是如此完美。 在許多情況下,增加資料庫經常會具有非常顯著的效果。

事實上,Alice 的工程師不僅僅是和 Bob 的工程師競爭。 由於 AI 社區的開放文化及其對知識共用的重視,他們的競爭對手其實來自Google、Facebook、微軟以及世界各地數千所大學的研究人員。

因此, 好的工程師雖然很重要的,但如果你是 AI 領域的話,資料的競爭優勢會顯得更為關鍵。

然而,更加重要的問題是,你如何才能保持自己的優勢。

AI 工具趨向簡單化並好上手,入門門檻將下降

2015 年,當我還在 Google 工作,剛開始玩 DistBelief,也就是後來我們所熟知的Tensorflow。 當時這個工具太難用了,所以當時想讓它在 Google 構建的系統之外運行完全是一個白日夢。

2016 年末,我進行了一個概念驗證的研究,在組織病理學圖像中檢測乳腺癌。 當時我想使用遷移學習:採用 Google 當時最好的圖像分類架構 Inception,並在我的癌症資料上重新訓練。 我可以使用 Google 提供的一個經過預訓練的初始權重,改變頂層結構來匹配我正在做的工作。

在 TensorFlow 上經過長時間的反復嘗試,我終於找到了操作不同層的方法,讓它基本上運作起來。 這需要很大的毅力去閱讀 TensorFlow 的資料。 不過至少我不必太擔心依賴關係,因為 TensorFlow 貼心地準備了Docker 鏡像。

在 2018 年初,多虧了 Keras(基於 TensorFlow 的一個框架),只需幾行 Python 程式碼就能完成這個專案, 而且使用它不需要你對自己正在做的事情有深入理解。 但它仍然有個痛點:超參數調整。

如果你有一個深度學習模型,可以調節多個參數,如層數和大小等。在我寫這些文字的時候(2019 年初),Google 和亞馬遜提供了自動模型調整服務(Cloud AutoML,SageMaker)。

我預測手動調整遲早會滅絕,工程師們也會從這項繁瑣的工作中解脫了。

總體趨勢是,將困難的事變得容易,你無需深入理解就能實現更多的東西。過去的那些偉大工程現在聽起來相當一般,所以我們不應該期望我們現在的成就在將來有多好。

聽起來很歡欣鼓舞是不是,但是,對於那些在 AI 技術上投入鉅資的公司和個人來說,這可以是個壞消息。目前來說,掌握某些 AI 技術還算是企業的競爭優勢,因為一個稱職的機器學習工程師需要花費大量的時間閱讀論文,並需要紮實的數學背景。

但是,隨著工具的改進,情況將不再如此。讀論文更多會轉向讀工具教程。如果你沒有很快意識到你該關注的重點,一個帶了資料更完備的實習生團隊就可能會搶走你的飯碗。

錢多買的到技術!那要如何長期保持競爭優勢?

讓我們再回到文章開頭的例子。憑藉出色的資料庫,Bob 成功地與 Alice 展開競爭,推出了自己的產品,並穩步增加了市場份額。他也慢慢可以開始雇用更好的工程師,因為坊間傳言他的公司是一個好去處。

但這時候,又出現了一個 Chuck,雖然入局晚,但他比 Bob 更有錢。

在建構資料庫時,錢至關重要。但通過砸錢來加快工程項目進度非常困難。事實上,使用太多新人可能會減緩進度,但建構資料庫就不同了。資料庫需要大量人工作業,而你可以通過雇用更多人手來搞定它。另一種可能是有人擁有資料,那麼你所要做的就是支付資料使用費。

無論如何,錢能讓資料庫來得更快。

但是問題來了,為什麼 Chuck 可以籌到比 Bob 更多的錢?

當創始人提出一輪融資時,他們會努力平衡兩個可能相互矛盾的目標。他們需要籌集足夠的資金在市場上競爭,但也不能太多,因為這會導致股權過度稀釋。創始團隊必須在創業公司中保持足夠的股份,以免失去創業的動力。

另一方面,投資者希望投資具有巨大上升潛力的創意,但他們必須控制風險。隨著預期風險的增加,他們會為支付的每一美元要求更大比例的股份。

當 Bob 籌集資金時,「人工智慧確實對產品有所説明」不過只是一個信念。無論他作為創始人多優秀,她的團隊有多好,但有可能他試圖解決的問題根本就難如登天。Chuck 的情況非常不同。他知道他面臨的問題完全可以解決!

在這種情況下,Bob 的應對方法很可能是提出另一輪融資,以便處於有利位置,因為他(暫時)仍然在競爭中領先。但是,如果 Chuck 可以通過戰略合作關係穩固獲取資料呢?比如舉個癌症診斷初創公司的例子,Chuck 可能利用他在一家重要醫療機構的內部職位,與該機構達成一份內部協定。這時候, Bob 很可能無法抗衡。

你的產品需具備防禦性,最好是一條「護城河」。

運用 AI 輔助後端作業,更能使公司保有競爭力

對業務進行分類的一種方法是,它是直接增加價值,還是為某些其他價值來源提供槓桿效應。以一家電子商務公司為例,增加價值就像創造了新的產品線,建立新的分銷管道則是一個槓桿,削減成本也是槓桿。

槓桿可能比直接施力更有效。但是,槓桿僅在與直接價值來源偶合時才起作用。一個微小的數字,翻了兩倍,三倍,還是很小。如果你沒有可出售的部件,開闢新的分銷管道也只是浪費時間。

在這種情況下我們應該如何看待 AI?有很多公司試圖將 AI 作為他們的直接產品(用於圖像識別的 API 等),對一個 AI 專家,這可能很有吸引力。

然而,這常並不是一個好的選擇。首先,你是在 Google 和亞馬遜等這些大公司競爭。其次,開發真正有用的通用 AI 產品非常困難。例如,我一直想使用 Google 的 Vision API。不幸的是,我們從未遇到過客戶需求與產品充分匹配的情況。總是有各種各樣要麼開發不夠要麼開發過度的情況。

更好的選擇是將 AI 視為槓桿。

你可以採用現有的,有效的商業模式,通過 AI 增強它。例如,如果生產流程依靠人類的認知勞動,那麼將其自動化可能會為毛利率帶來顯著提升。這裡我能想到的例子有:心電圖分析,工業檢查,衛星圖像分析。同樣令人興奮的是,因為 AI 屬於輔助後端,仍然可以利用非 AI 業務來保持公司的競爭優勢。

AI 當商品只會貶值,但用於輔助產品會升值

AI 是一項真正的變革性技術。但是,以此為基礎創業是一件棘手的事情。你不應該完全依賴於 AI 技能,因為市場趨勢就是技術會貶值。

建構 AI 模型可能非常有趣,但真正重要的是擁有比競爭對手更好的資料。

保持競爭優勢很難,特別是遇到比你資金更充足的競爭對手,這種情況在你的 AI 創業進行時很可能發生。你的目標應該是創建一個可擴展的資料收集過程,而這個過程很難被競爭對手抄襲。

AI 非常適合顛覆依賴低附加值、勞動重複性的行業,因為它使該工作自動化成為可能。

(本文經 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈是的,你的AI技能正在“贬值”〉 。首圖來源:pixabay CC Licensed)

最性感的行業

人才擠爆數據科學行業!五年前的「最性感」職業如今邁向泡沫化
攻略 21 世紀最性感職業!年薪要破百萬,先從這「120 個面試題」開始
寫程式不再崩潰!介紹 5 個 Google 工程師都在用的好習慣