從新創企業到大公司,各種工程師會用到的數據分析工具統統整理給你!

【為什麼我們要挑選這篇文章】所有企業都知道數據分析很重要,但是否有導入合適的工具、系統執行數據分析,又是另外一回事了。那麼,怎樣的數據分析工具最適合自己的公司?國外有 AI 公司的創辦人在 Medium 上 分享 企業的數據分析工具集,供企業 IT 人員與決策者參考。(責任編輯:郭家宏)

說到技術堆疊(technology stack),你能想到什麼?

組織在建構自己專屬的技術堆疊時,會使用到各種不同的相似技術。但也存在一些趨勢,如果你正在組建一個新的團隊、組織或公司的時候,一開始你可能需要效仿某個現成的技術堆疊,再依據需求來建構自己的技術堆疊,還需要對一些過時的技術進行升級。

medium 上的一位博主最近與數據工程師、數據科學家和分析師交流後,總結了技術堆疊資訊,並分享了每個部分都有哪些最常使用的堆疊,至於雲端服務選擇、容器、CI/CD 工具等應用和模型部署相關的技術,就留給工程師和 DevOps 夥伴們來探索。

一起看看。

原文 傳送門

公司 A:SaaS 新創公司

數據庫:MySQL
數據倉庫:PostgreSQL、Snowflake
ETL:Embulk、Python、Airflow
視覺化:Redash、Metabase
人工智慧/機器學習:暫無

公司 B:AI 新創公司

數據庫:PostgreSQL
數據倉庫:PostgreSQL + Stitch
ETL:大量使用 Python
視覺化:Matplotlib、TensorBoard(sorta?)
人工智慧/機器學習:無處不在的 TensorFlow,部分 Sklearn 或開始嘗試使用

公司 C:中型技術公司

數據庫:MongoDB(NoSQL),或遷移至 DynamoDB(NoSQL)
數據倉庫:Amazon Redshif
ETL:Airflow、Python
視覺化:什麼都有一些
人工智慧/機器學習:投入可觀

公司 D:大量分析需求的大型組織

數據庫:SQL Server(幾乎鍾情於 Azure SQL DB)
數據倉庫:Azure Synapse (SQL DW)、Snowflake
ETL:Azure Data Factory、Python
可視化:Tableau、Power BI
分析:什麼都有一點
人工智慧/機器學習:什麼都有一點

公司 E:較少分析需求的大型組織

數據庫:Redis、SQL Server
數據倉庫:Azure Databricks(Spark)
ETL:Azure Data Factory、Python
視覺化:Redash
人工智慧/機器學習:隨機一次性使用,或依據用戶偏好來

公司 F:中型數據公司

數據庫:MySQL(其他基本用的很少)
數據倉庫:Hive(以 Hive 為主,其他隨意)
ETL:50 種不同工具(有些誇張,但真沒什麼結構)
視覺化:使用各種主流視覺化工具
人工智慧/機器學習:什麼都有,看用戶偏好

公司 G:技術公司(頂尖數據文化)

數據庫:MySQL、Cassandra(NoSQL)、定製其他數據庫
數據倉庫:Hadoop & 定製/從頭開始建構
ETL:各種用例所需的堆疊都不同,該公司對技術堆疊選型所考慮的因素比較多,最終自己開發了不少 ETL 工具,或使用現成的工具。
視覺化:常用的有 Python 庫、R 和 Tableau,但也會自己開發一些工具,並將工具開源。
人工智慧/機器學習:採用 TensorFlow 框架實現深度學習,常見的機器學習標準庫,自行開發各類用於模型管理、追蹤指標的工具。

透過模仿,能快速學習企業的技術堆疊

最高效的方法是直接效仿,但你得搞清楚他們都能幫忙你做什麼,才可以用好。比如同是學習 LeBron James 電影,你可能成為一個好的籃球選手,你可以花費大量時間來研究他的比賽,或模仿他的比賽方式來提升球技,但你終究不是詹姆斯。如果你和我一樣,遠沒有詹姆斯那樣的超能力,也不能跳過天花板,你就需要研究如何在比賽中表現得更好,變得更加優秀。

需要注意的是,很多技術我都沒有列出,你可能也發現了其中缺少一些流行的技術,例如 Impala(Hadoop 引擎)、Rapidminer(分析工具)、R(程式語言)、PyTorch(機器學習庫)等。如果你沒有看到自己喜歡的技術,請不要生氣,這只能說明我只訪談了小部分人,他們沒有用到這些技術。

(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈从初创到顶级技术公司,都在用哪些数据科学技术栈?〉。首圖來源:Piqsels CC Licensed

更多關於程式的技術

【照片動動動起來】Google 跟柏克萊用 Python 寫出全新讓靜態圖 2D 轉 3D 的無痛方式!
微軟工程師推出 Python 零基礎課程,用 10 分鐘的短片讓你輕鬆上手!
【內附教學】唐鳳愛用的「番茄鐘工作法」,教你用 Python 幾分鐘製作!

點關鍵字看更多相關文章: