數據分析是什麼?數據分析師又在做什麼?數據分析入門課帶你進入數據世界!

文/Emily, Anni|編輯/Quen

根據 The 2017 Deloitte State of Cognitive Survey《 Bullish on the business value of cognitive – Leaders in cognitive and AI weigh in on what’s working and what’s next 》報告指出,目前人工智慧主要用於透過數據分析與歸納,協助企業提升決策能力。

數據分析席捲各行各業,各公司皆致力處理數據分析來加值產品服務、改變既有費時或重工的工作流程、提升未來營運表現等,目的皆是提高營收、降低開銷。

Current AI usage by segment 。圖/ Deloitte State of Cognitive Survey, August 2017
icon/enlarge

身為公司管理決策者的你、技術人員的你 ,或是市場先鋒的你,掌握數以千筆的資料在手上,哪些資料可用?哪些資料有價值?你真的知道從何下手嗎?掌握以下五步驟,數據分析就像煮菜一樣淺顯易懂!

數據分析五步驟

簡單來說,數據分析可分為五個步驟:蒐集、處理、儲存、分析、使用,很像烹飪過程:買菜、備料、冷藏、煮菜、擺盤,每個步驟環環相扣才能端出美味佳餚。

0. 定義問題:資料需求更明確

在開始動作前,得先定義問題。清楚問題與需求後,才知道要分析什麼、要如何解決,方能著手蒐集相關且有用的資料。

以烹飪來說,得要先預想好煮什麼菜,才能開始準備需要的食材。比如說,要煮三杯雞的食材清單,就是雞腿肉、九層塔、薑片、醬油和米酒。

1. 蒐集資料:資料從何來

定義問題後,就需要蒐集相關資料,假如沒有資料,數據分析就無從談起。當然,資料可以是從公司內部、問卷調查或是第三方來源,唯一指南就是重視資料完整性、整體性。

以烹飪來說,選好菜色後就是買菜,菜源要自給自足,還是去傳統市場、超市買菜都非常彈性,唯一要素就是菜要買齊、要新鮮!

2. 處理資料:改善資料品質

剛蒐集到的資料都會很雜亂,所以必須下功夫好好整理一番。根據統計,數據分析師近八成時間都在處理資料、改善資料品質。舉例來說,今天是某商家的 A 分店是用天數來計算銷售額,可是 B 分店是以週數計算,所以需要將這兩家的資料轉變成月銷售額,方便比較。

以烹飪來說,就是備料步驟,將雞腿肉、九層塔和薑片清洗乾淨,該醃製的醃製、該削皮的削皮,最後切成同樣的大小,等待下個步驟。

3. 儲存資料:不同屬性有不同環境

根據資料量及複雜性,就有不同的儲存方式與環境。尤其現今雲端平台不只儲存功能,也能照顧到其他運算需求,將資料儲存在雲端會是不錯的選擇。另外,將處理好的資料儲存下來,日後有需要時便可隨時取用。

以烹飪來說,儲存環境好比是醬油放常溫櫥櫃、蔬菜類放冷藏、肉類放冷凍,儲存方式可能是瓶裝、袋裝、真空包裝等,依照各個食材屬性選擇保鮮方式。

4. 分析資料:資料越多越準確

數據分析並非是新學問,伴隨雲端平台、機器學習技術越趨成熟,越能在短時間內查詢大量資料、分析、演算,並利用分析完的資料找出規律與特徵,就越有機會預測未來趨勢,而有越多資料就能做越多嘗試,分析出的數據就越準確。

以烹飪來說,在只有柴火時代,製作一道菜耗時許久,而且方式單一。現在工具與食材越來越多樣,有電磁爐、電鍋、烤箱、當地食材、異地香料等,就能不斷嘗試多種菜餚,不斷優良口感,達到每個人要求、做出差異化!

5. 使用數據:資料視覺化

最後獲得的數據該如何呈現?該給誰看?該如何使用?也是一門深奧的學問。以烹飪來說,就是擺盤的重要性,擺盤擺得好也能讓食物更美味!

  • pre 定義問題 資料需求明顯
  • step1 資料搜集 資料從何來
  • step2 處理資料 改善資料品質 Dataproc、Dataflow、Dataprep
  • step3 儲存資料 不同屬性有不同環境 Cloud Storage
  • step4 分析資料 資料越多越準確 Big Query
  • step5 使用數據 資料視覺化 Cloud Datastudio

資料處理三劍客

如上述,因為科技發達而加速數據分析過程,接下來就順帶介紹幾個 CloudMile 團隊常用的處理資料工具。

Cloud Dataproc

如果操作數據已經有段時間,累積些既有程式,但考慮將資料搬遷到雲端,必須好好認識 Cloud Dataproc,能省下建置集群時間,直接管理 Spark 和 Hadoop,讓運算更有效率。

Cloud Dataflow

如果是新開發新使用,建議選擇 Cloud Dataflow,能免於管理叢集以及運算資源的麻煩,同時支援串流與批次處理,不需重複編寫。

Cloud Dataprep

處理資料過程中,必定會遇到繁雜數值、欄位需要統一,這時 Cloud Dataprep 會是個好幫手。無需下載程式,僅需按鈕及拖拉式操作,入門門檻低,不會編程也能上手!(詳細介紹請看下方影片)

【雲端小教室 Ep.12】五個一定要用 Dataprep 的原因

【雲端小教室 Ep.13】Dataprep使用教學

小結

複雜分析後,如何解讀數據背後隱藏的秘密,還需仰賴產業經驗,並結合趨勢解讀,才能抓到下個風口處。

其實,同時具備產業面知識以及科技分析人才遠低於目前市場所需,因此企業若能與外部資源合作,例如科技諮詢、研究機構,再配合企業內部的產業權威,會是短期內最有效的方式。

參考連結

[1] 處理資料像料理菜餚?淺析做數據分析的六項技能!

[2] Introduction to Google Cloud Dataflow

訂閱 CloudMile 電子報

所有 CloudMile 最新消息、產品動態、活動資訊和特別優惠,立即掌握。