Big Data 大數據防疫既快且準 新一代雲端資料倉儲讓企業用更少,做更好

台灣疫情控制得當,正邁向防疫新生活的階段,而台灣這次亮眼的科技防疫表現也屢次躍上國際媒體。尤其是鑽石公主號郵輪爆發群聚感染,當時有2,700名乘客入境台灣,行政院團隊透過乘客手機訊號分析出其足跡,並結合電信業者基地台門號訊號以及手機地理位置定位,成功利用大數據分析技術找出有接觸史的62萬多位民眾,並緊接著進行追蹤與篩檢。在這樣與時間賽跑的防疫工作中,能快速即時處理大量資料的唯有仰賴新一代雲端資料倉儲技術。

快速擴充且無需管理基礎架構 BigQuery 為企業節省一半成本

雲端資料倉儲問世已有七、八年之久,隨著企業已將越來越多種應用服務搬上雲端並採用混合雲、多雲架構,實際感受雲端運算所帶來的即時、經濟、便於管理等效益,許多企業也陸續開始將商業智慧(Business Intelligence, BI)、資料倉儲(Data Warehouse)等應用搬遷上雲,或直接採用新一代雲端資料倉儲服務。根據Enterprise Strategy Group的《2019 Technology Spending Intentions Survey》調查報告指出,47%已經採用雲端Iaas/PaaS服務的企業也會為了相同目的執行BI查詢與大數據分析。

相較於傳統企業在地端自建資料倉儲系統,需耗費大量軟硬體建置成本及基礎架構維運人力,透過雲端資料倉儲服務,其無伺服器的特性可讓企業專注資料分析工作,不必去處理系統更新升級或相關安全性問題。

同樣根據ESG調查,Google的雲端 Data Warehouse 服務 BigQuery 比起傳統資料倉儲系統或將Data Warehouse系統遷移至IaaS的做法可為企業節省52%~41%的總持有成本。

其次,在使用BigQuery查詢資料之前,可先將高速串流資料寫在Cloud Bigtable做資料處理。當今許多針對網站使用者行為、即時行動裝置、IoT訊息來源的資料源,透過BigQuery做機器學習時,可直接讀取資料的Label,相當於把非結構性資料轉換為結構性資料,加速建模。第三、其兼顧自動化與高可用性特性,透過Data Transfer Service工具可自動依排程將來自SaaS的資料載入BigQuery中做分析,同時也自動在多個位置提供高可用性的複製儲存空間,企業不需額外付費另外調整設定。過去在地端的資料倉儲系統總是須先預估並配置運算資源,若在下查詢指令時才發現運算太慢,要臨時擴充資源也較為不便。

icon/enlarge

Google BigQuery有別於其他雲端Data Warehouse服務的最大特色,便是開發人員可專注開發工作,無需事先配置叢集需要多少機器,Google Cloud可動態調整資源,開發人員只需專注SQL語法編寫,不用另外管理或調整叢集的運維或運算資源。

icon/enlarge

評估雲端資料倉儲服務3大要點

CloudMile專業技術顧問團隊指出,台灣目前採用雲端資料倉儲的企業約在4成上下,橫跨各產業別。主要可用於大數據分析以產出BI決策或用於機器學習得到預測,依資料屬性可分為三類,一是來自物聯網或機台設備的系統日誌資料,製造業在產線上可用於預測物料需求,並且可用歷史資料來預測未來變化。其二,電子商務產業則會將所搜集到使用者網路交易行為、點擊行為用於即時分析。第三類,可整合既有資料庫成為單一個資料倉儲來彙整分析。

近期CloudMile即協助某運輸業者透過Google BigQuery將過去應用系統的資料庫轉換為雲端Data Warehouse,透過客戶叫車的地理資訊位置歷史資料結合機器學習技術,預測幾小時後哪些地點將有載客需求,並預先派遣車輛前往。透過BigQuery,不僅其運算效能比過去在地端執行更快,也獲得30%~40%的投資報酬率。

未來隨著法規逐漸鬆綁,雲端資料倉儲服務將可望逐漸成為主流趨勢,許多傳統Data Warehouse業者也已進入雲端Data Warehouse市場。企業在評估各種雲端Data Warehouse服務時,應選擇具備以下特性的Data Warehouse服務以及合作夥伴的能力:

  1. 雲端Data Warehouse服務能動態調整資源,不需預先配置儲存及運算的機器,讓開發人員專注SQL開發。
  2. 合作夥伴能協助優化雲端Data Warehouse效能。因效能與雲端服務費用息息相關,因此服務廠商若能提供以下相關服務,將有助於提升雲端Data Warehouse服務的投資報酬率。包括建議在SQL語法撰寫上的注意事項,哪些語法應避免使用或小心使用。以及注意資料結構與dataset的設計、資料表的設計與擺放,建議應如何拆分等。同時可建議善用雲端Data Warehouse服務的免費功能,例如Google BigQuery的Cache可加速查詢,而善用Partition設定將準備用來查詢的資料先存在暫存區,如此可縮短查詢時間,亦可節省查詢結果總量進而有效降低BigQuery服務的使用費用。
  3. 除了分析前提供語法撰寫的建議,在客戶執行分析後也能持續協助優化並提供諮詢。

疫情不僅改變許多消費行為模式,為了減少人際互動維持社交距離,也加速企業採用雲端服務並加快數位轉型腳步。當大家都知道Data is King,努力地搜集資料做大數據分析時,能比別人用更少的成本做到更快速精準的分析,才有機會領先同業搶佔先機!

訂閱 CloudMile 電子報

所有 CloudMile 最新消息、產品動態、活動資訊和特別優惠,立即掌握。