Python data analysis

【我們為什麼挑選這篇文章】Python 語法簡單好寫,背後社群強大,在數據分析領域佔有一席之地,現在許多開源軟體和套件也多以 Python 作為主要的實作語言。Python 市場廣大、工作機會多,吸引許多非程式背景的人學習,但「寫」程式對於零基礎的初學者而言還是有些門檻,有什麼無痛接軌的工具嗎?

目前有個叫 Mito 的外掛程式,操作上和 Excel 一樣簡單,不用「寫」程式碼就能用 Python 做數據分析,能協助程式初學者銜接學習 Python。(責任編輯:賴佩萱)

本文經 AI 新媒體量子位(公眾號 ID:QbitAI)授權轉載,轉載請連繫出處
作者:量子位

加載一個 Jupyter 外掛後,無需寫程式碼就能做數據分析,還幫你生成相應程式?

沒錯,只需要下載這個名為 Mito 的小工具包,用 Python 做數據分析,變得和用 Excel 一樣簡單:

運行速度比 Excel 更快,也不需要到處搜各種 Python 教學了。

和 Excel 一樣直覺好用,而且更快更全面

Mito 是 Jupyter notebook 的一個可編輯電子表格外掛,在編輯 .csv 表格(帶格式轉換功能)時,就能生成相關 Python 程式。

Mito,是粒線體 Mitochondria 的縮寫。具體來說,Mito 的出現,像是將 Python 的強大功能和 Excel 的易用性進行了結合。

只需要掌握 Excel 的用法,就能使用 Python 的數據分析功能,還能將寫出來的程式「打包帶走」。

它彌補了 Excel 在數據分析上的幾個缺陷:

  1. Excel 無法做大數據分析(大型數據集處理得不好)
  2. Excel 運行緩慢
  3. Excel 無法輕鬆創建可重複流程

同時,又比 SQL 和 Python 更簡單、直觀。畢竟這些專業工具對於 0 基礎初學者來說,需要至少幾年時間,才能完全上手。

據 Mito 內測用戶表示,這款外掛讓他們用 Python 做數據分析的效率提升了 10 倍,因為用戶可以直接在 Mito 裡編寫 Excel 公式,如=SUM(A1, 100)。

那麼,Mito 是怎麼做到將 Excel 邏輯轉換成 Python 程式的呢?

作者們編寫了一種名為 Transpiler 的程序,有點類似於編譯器的功能,採用抽象語法樹(AST),解析 Excel 源程式碼,並轉換成 Python 的源程式碼。

相比於採用專業軟體如 Alteryx(需要5000美元/月)進行數據分析,Mito 所生成的Python 程式碼可以根據需要自行修改,靈活性更高一點。

目前,Mito 採用亞馬遜雲端平台 (AWS)保存用戶的相關數據,每個用戶擁有一個獨立帳戶。

當然,用戶也可以選擇將數據保存在本地。

還能自動生成 Python 程式碼

以分析美國各州的「家庭平均收入」和「允許托運的火車站數量」這兩個數據的關係為例。

首先,上傳「家庭平均收入」和「允許托運的火車站數量」兩份數據。

數據處理的格式是 .csv,當然也可以輸入 Excel 文件,並用 Mito 轉成兩份 .csv 文件。

然後,將這兩份數據集合併在一起,只需要用鼠標勾選對應功能、選中相關數據列就行。

啪!程式碼就生成好了。

然後,是做數據透視表,在完成分組後,採用聚合(aggregate)功能來切換聚合方法。

還包括數據過濾功能,同樣立刻就能生成相關代碼。

包含升降序排序功能,快速簡潔。

然後就是相關數據統計、分析出結果了,流程直觀。

保存分析文件的方法也很簡單,文件是以 Python 編寫的,而不是用比較難懂的 VBA。

要想重複上面的步驟的話,也非常容易,Mito 自帶「重複已保存分析步驟」功能,一鍵就能用同樣的方法分析其他數據。

確實要比一行行編寫代碼簡單多了。

是誰開發了 Mito?

那麼,Mito 的作者們,為什麼要搞這個軟體?

因為他們發現,所謂的「幾天上手 Python 數據分析」,其實根本沒有那麼容易……

初學者要想用 Python 搞數據分析,就得不停地查看各種文檔、和求助 StackOverflow。

要想真正快速用 Python 分析數據,最後還得自己編寫軟體。

三位作者 Aaron Diamond-Reivich、Jake Diamond-Reivich 和 Nate Rush 都來自賓大,在學校期間,他們學習了電腦科學、統計學和商業分析相關的課程。

也正是在搞數據分析的時候,他們萌生了想要製作 Mito 的想法。

作者表示,軟體目前還沒有開源,因為他們還在思考,如何支持維護這個項目,並轉到開源路徑上來。

不過,它現在已經可以使用了。

感興趣的小伙伴們,可以上手試試了!

專案首頁:https://trymito.io/launch

(本文經 AI 新媒體量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈0 代碼就能做 Python 數據分析,這個 Jupyter 插件,用起來就像 Excel 一樣簡單〉;首圖來源:pixabay。)

你可能會有興趣