【為什麼我們要挑選這篇文章】所有企業都知道數據分析很重要,但是否有導入合適的工具、系統執行數據分析,又是另外一回事了。那麼,怎樣的數據分析工具最適合自己的公司?國外有 AI 公司的創辦人在 Medium 上分享企業的數據分析工具集,供企業 IT 人員與決策者參考。(責任編輯:郭家宏)
說到技術堆疊(technology stack),你能想到什麼?
組織在建構自己專屬的技術堆疊時,會使用到各種不同的相似技術。但也存在一些趨勢,如果你正在組建一個新的團隊、組織或公司的時候,一開始你可能需要效仿某個現成的技術堆疊,再依據需求來建構自己的技術堆疊,還需要對一些過時的技術進行升級。
medium 上的一位博主最近與數據工程師、數據科學家和分析師交流後,總結了技術堆疊資訊,並分享了每個部分都有哪些最常使用的堆疊,至於雲端服務選擇、容器、CI/CD 工具等應用和模型部署相關的技術,就留給工程師和 DevOps 夥伴們來探索。
一起看看。
原文傳送門
公司 A:SaaS 新創公司
數據庫:MySQL
數據倉庫:PostgreSQL、Snowflake
ETL:Embulk、Python、Airflow
視覺化:Redash、Metabase
人工智慧/機器學習:暫無
公司 B:AI 新創公司
數據庫:PostgreSQL
數據倉庫:PostgreSQL + Stitch
ETL:大量使用 Python
視覺化:Matplotlib、TensorBoard(sorta?)
人工智慧/機器學習:無處不在的 TensorFlow,部分 Sklearn 或開始嘗試使用
公司 C:中型技術公司
數據庫:MongoDB(NoSQL),或遷移至 DynamoDB(NoSQL)
數據倉庫:Amazon Redshif
ETL:Airflow、Python
視覺化:什麼都有一些
人工智慧/機器學習:投入可觀
公司 D:大量分析需求的大型組織
數據庫:SQL Server (幾乎鍾情於 Azure SQL DB)
數據倉庫:Azure Synapse (SQL DW)、Snowflake
ETL:Azure Data Factory、Python
可視化:Tableau、Power BI
分析:什麼都有一點
人工智慧/機器學習:什麼都有一點
公司 E:較少分析需求的大型組織
數據庫:Redis、SQL Server
數據倉庫:Azure Databricks(Spark)
ETL:Azure Data Factory、Python
視覺化:Redash
人工智慧/機器學習:隨機一次性使用,或依據用戶偏好來
公司 F:中型數據公司
數據庫:MySQL(其他基本用的很少)
數據倉庫:Hive (以 Hive 為主,其他隨意)
ETL:50 種不同工具 (有些誇張,但真沒什麼結構)
視覺化:使用各種主流視覺化工具
人工智慧/機器學習:什麼都有,看用戶偏好
公司 G:技術公司(頂尖數據文化)
數據庫:MySQL、Cassandra(NoSQL)、定製其他數據庫
數據倉庫:Hadoop & 定製/從頭開始建構
ETL:各種用例所需的堆疊都不同,該公司對技術堆疊選型所考慮的因素比較多,最終自己開發了不少 ETL 工具,或使用現成的工具。
視覺化:常用的有 Python 庫、R 和 Tableau,但也會自己開發一些工具,並將工具開源。
人工智慧/機器學習:採用 TensorFlow 框架實現深度學習,常見的機器學習標準庫,自行開發各類用於模型管理、追蹤指標的工具。
透過模仿,能快速學習企業的技術堆疊
最高效的方法是直接效仿,但你得搞清楚他們都能幫忙你做什麼,才可以用好。比如同是學習 LeBron James 電影,你可能成為一個好的籃球選手,你可以花費大量時間來研究他的比賽,或模仿他的比賽方式來提升球技,但你終究不是詹姆斯。如果你和我一樣,遠沒有詹姆斯那樣的超能力,也不能跳過天花板,你就需要研究如何在比賽中表現得更好,變得更加優秀。
需要注意的是,很多技術我都沒有列出,你可能也發現了其中缺少一些流行的技術,例如 Impala(Hadoop 引擎)、Rapidminer(分析工具)、R(程式語言)、PyTorch(機器學習庫)等。如果你沒有看到自己喜歡的技術,請不要生氣,這只能說明我只訪談了小部分人,他們沒有用到這些技術。
公司數據分析該用哪種工具?沒有單一平台能把 SQL、 Spark 技術、 ETL/ELT 管線,以及其他 Power BI 服務整合嗎? 報名 2021 微軟線上雲端技術盛會,了解數位化業務「最強分析大腦」Azure Synapse Analytics 如何拯救你的工作!
(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為〈从初创到顶级技术公司,都在用哪些数据科学技术栈?〉。首圖來源:Piqsels CC Licensed)
更多關於程式的技術
【照片動動動起來】Google 跟柏克萊用 Python 寫出全新讓靜態圖 2D 轉 3D 的無痛方式!
微軟工程師推出 Python 零基礎課程,用 10 分鐘的短片讓你輕鬆上手!
【內附教學】唐鳳愛用的「番茄鐘工作法」,教你用 Python 幾分鐘製作!