資料倉儲設計技巧,為什麼傳統的資料倉儲不再適用的 5 個原因

今時今日的各界企業都在試圖解決複雜的業務問題,也就是密集型的數據 (data-intensive),但是通常他們資料平台的基礎架構阻礙了發展,1990 年代設計的資料平台結構可能沒辦法解決 2020 年的業務問題。而全球的企業數據正爆炸性地成長,如果您現在就在管理資料基礎架構,那麼您絕對清楚資料增長的狀況。越來越快及越來越龐大的數據流、全球業務需求,以及精通技術的客戶都對 IT 團隊施加了更多的壓力,要求他們更靈敏、更快速。

儘管時代與需求改變了,但是大多數資料分析任務還是在傳統的資料倉儲中進行,導致不能夠因應這些需求與挑戰。如果請教 IT人員關於他們如何建立現代的資料策略,會聽到很多因為使用傳統技術所造成的限制。這些傳統的資料倉儲 (legacy data warehouses) 顯然不再適用了,原因還有解決方法如下:

資料倉儲(英文:Data Warehouse),是一種資料管理類型,通常設計來支援企業的商業智慧(Business Intelligence),尤其是分析功能。

 

資料倉儲集中管理並整合來自於大量來源的大量資料,通常會定期從交易處理系統、關聯式資料庫和其他來源流入資料倉儲。資料商業分析師、資料工程師、資料科學家和決策者可透過商業智慧 (BI) 工具、SQL 用戶端和其他分析應用程式存取資料。其分析功能可讓組織從其資料中推知寶貴的資料見解,以改善企業的決策制定。

 

資料和分析已成為企業保持競爭力不可或缺的一部分。企業使用者依賴報告、儀表板和分析工具,從資料擷取深入洞見、監控商業效能和支援決策。資料倉儲為這些報告、儀表板和分析工具提供支援,透過有效率地存放資料以最大程度地減少資料的輸入和輸出 (I/O),並快速地將查詢結果同時交付給成千上萬的使用者。

 

如還想了解更多資料倉儲與資料湖泊的差異,歡迎至以下文章閱讀:「資料湖泊與資料倉儲介紹與比較:兩者的 5 大差異」。

為什麼需要資料倉儲設計?

1.使用傳統技術很難展現企業的敏捷性。

隨著企業組織走向完全數位化的經營,企業敏捷性是主要目標。例如網路銀行與零售產業,他們在競爭激烈的環境中必須搶先滿足各種線上需求,而所有偉大的尖端創新,都反映了文化與技術的變革,其中靈活度非常重要。企業必須能夠快速管理和分析數據,了解如何提供客戶更好的服務,並允許他們的團隊妥善運用可獲得的資料。

目前許多資料倉儲都以 95% 或 100% 的速度運行,在最大限度內為企業提供數據。無論是本地部署,還是現有的資料倉儲基礎架構都已分批遷移到雲端,這些倉儲都無法滿足用戶的所有數據需求。管理和預防這些問題可能會佔用 IT 人員大量的時間,並且這些問題通常會隨著時間的推移而複雜化。另外,達到容量限制時會減慢用戶的速度,並牽制數據庫的管理員。

從資料基礎架構的角度來看, 分離計算和儲存的層次對於實現企業敏捷性非常重要。當資料倉儲可以處理您的具擴展性的需求和自我管理效能時,您就可以主動出擊了。

2.傳統資料倉儲需要不同程度的管理。

您的企業運作中,大多數的報告和查詢可能都是有時效性的,並且隨著用戶和團隊看到數據分析能發揮的可能性,這種緊迫感只會越來越大。在與客戶的互動中,Google 觀察到他們在系統工程上花費了大部分時間,因此僅有 15% 的時間用於分析資料,在維護工作上可以說是花了大量時間。由於傳統基礎架構很複雜,因此經常聽到企業繼續投資請人員來管理那些過時的系統,即使他們沒推動數據戰略或敏捷度的成長。

icon/enlarge

減少管理資料倉儲的時間,有助於將自動化系統工程的工作與分析工作分離,就如同 BigQuery 能夠做的。一旦分離了這些功能,分析工作便會佔據中心位置,從而使用戶對管理員的依賴性降低。 BigQuery 還可幫助消除傳統資料倉儲常見的用戶訪問問題。一旦發生這種情況,用戶就可以專注於建構報告、瀏覽資料集 (dataset) 以及輕鬆共享信任的結果。

3. 傳統數據倉儲所需成本使投資策略變得更加困難。

像其他本地系統一樣,資料倉儲遵循老式的技術付費模式,並附帶相關的硬體和證照費用以及正在進行的系統工程,而這種效率較低的體系結構導致更差的效率。當企業朝著數據驅動 (data-driven) 的方向發展時,他們將繼續向您的團隊要求更多資料。但是滿足這些需求也意味著您很快就會花光預算。

雲端提供了更多的成本靈活性,代表您不用為管理整個基礎架構或為它付費。當然,將效率較低的傳統架構簡單地移植到公有雲中是可行的。為了避免這種情況發生,可以來談談資料倉儲的總擁有成本(TCO),因為它點出傳統技術成本和商業敏捷性之間的差異。遷移到 BigQuery 不僅是遷移到雲端——更是遷移到了新的成本模型,而您在其中減少了基礎架構和系統工程。(進一步了解來自 IT 研究機構 ESG 的 TCO 比較報告,有更多雲端資料倉儲的詳細資訊。)

4.傳統資料倉儲無法靈活地滿足商業需求

使用 overnight data 曾是過去的標準作法,但是對商業的發展來說,全球性的機會代表的是現今的資料倉儲必須要能加載串流及批次處理資料,同時支援同步查詢。硬體的限制是傳統系統難以跟上商業需求的主因。

將您現有的體系結構遷移到雲端,通常代表著將您現有的問題遷移到雲端中,Google 從企業那裡得知,這樣做仍然不允許即時串流處理。這對資料分析師和用戶來說是個關鍵。使用像是 BigQuery 這類型的平台,代表您實際上是將計算能力轉移到資料倉儲本身中,因此會隨著越來越多的用戶造訪分析而擴展。無限制運算是可以幫助您的企業數位化的一個好方法。您可以專注於開發新功能,而非努力趕上用戶的需求。由於雲端資料倉儲能夠自動複製、還原和備份資料,也提供能夠對敏感性的資料進行分類和編輯的方法,雲端因此提供了更高的安全性。

5.傳統資料倉儲缺少內建成熟預測分析的解決方案

傳統資料倉儲通常都在努力滿足日常資料的需求,例如:向財務或銷售部門等提供報告。當資源供應和運算能力的限制拖住您團隊的後腿,很難想像還會有時間和資源進行預測分析。

從客戶端可以得知,許多人都承擔著簡化基礎架構,並協助企業用戶現代化(例如人工智慧、 機器學習和自助服務分析等)的任務。關於數位轉型最好的故事,是發生技術變化的同時,商業或文化也一起變化。一位客戶曾經告訴 Google,由於 BigQuery 使用的是熟悉的 SQL 界面,因此他們實際上能夠將資料分析的工作從小的 、工作量過載的資料科學家團隊轉移到更多同仁手中。這樣做還消滅了許多孤立的資料湖泊(data lakes),這些資料湖泊的資料,是資料科學家為了訓練 ML 模型時,將每一個項目的資料萃取到不同的儲存庫中所出現的。

這些大規模運算的可能性節省了時間和開銷,也使企業可以探索新的成長途徑。人工智慧和機器學習已經改變了零售業等行業的面貌,其中預測分析能夠幫助企業做出更好決策的預測及其他任務。 BigQuery 可讓您執行複雜的機器學習任務,無需移動資料或使用第三方工具。

Google 設計 BigQuery 是為了讓工程師部署您所需的資源以進行擴展,也就是您可以將注意力完全轉向以滿足商業需求,並帶來更大的靈活性。 BigQuery 完全沒有伺服器,可在 Google 基礎架構上運行,因此可與 Google 的資料和分析合作夥伴工具的生態系統作整合。這種體系結構能讓您獲得最新的軟體堆疊 (software stack)——可擴展的分析、即時洞察,以及包含了從 SQL 介面直接進行地理空間和機器學習的先進功能。

現在就開始利用 BigQuery 幫助您現代化資料倉儲,讓遷移過程更簡單輕鬆。立即聯繫我們,開始 Google Cloud 的遷移服務吧!

延伸閱讀

《一次了解遷移資料倉儲時,企業面臨的挑戰及對策》

本文編譯自《5 reasons your legacy data warehouse won’t cut it》

訂閱 CloudMile 電子報

所有 CloudMile 最新消息、產品動態、活動資訊和特別優惠,立即掌握。