從機器類型、備份到機器管理,簡介 Google Compute Engine(GCE)四大面向功能與優勢

隨著台灣公有雲整體服務市場競爭愈趨激烈,各大研調機構皆看好公有雲市場的發展前景。據 IDC 預估,台灣公有雲整體服務市場規模,預估未來 5 年的年複合成長率將能維持在 19.1%。而企業使用如 Google Cloud 平台等大型公有雲服務,最直接的優勢便是能與 Google 地圖、YouTube 等產品使用同等全球規模的基礎架構服務。本文精選出 Google 虛擬機器運算服務 Google Compute Engine(簡稱GCE)於運算效能、儲存備份、機器管理等優勢,帶您了解如何透過 Google Cloud 簡化企業營運、節省費用,並有效保護企業資料。

為何選用 Google Cloud Compute Engine(GCE)?

一、GCE 多樣機器類型選擇

提供「先佔」虛擬機器類型(Preemptible VM),享有成本效益:

在您創建虛擬機器時,Compute Engine 提供先佔虛擬機器類型(preemptible VMs),包括已設定好的 vCPUs 數量及記憶體容量。與一般 VM 相比,先佔 VM 享有價格優勢,但可用性會隨使用情況而變化,適用於具有容錯性且擁有大規模批次運算需求的工作負載。關於先佔 VM 的計費方式,Google 去年推出最新的先佔 VM 版本「Spot VM」,提供更加經濟實惠的雲端成本優化方案,歡迎參考 Compute Engine 訂價頁面,了解不同機器類型的相應價格。

支援「客製化」運算機器類型,不浪費資源:

如果預定義的機器類型無法滿足您的需求,您可於創建虛擬機器時自行選擇 vCPU 數量及記憶體容量,打造客製化的機器類型。客製化機器類型適用於一般用途的機器,包括使用 GCP 上的 E2、N2、N2D 或 N1 系列的機器類型來部署客製化的機器類型。

客製化機器類型用於包括預定義機器類型不支援的工作負載,以及需要更多處理能力或更多記憶體量,但又不需要啟用更高階機器類型的工作負載,藉此降低營運成本,控制以核心數量為計算基礎的軟體授權費用。

支援「高效能運算」:擁有最大單一節點配置 GPU 的虛擬機器

GCE 可針對企業不同工作負載提供建議使用的機器類型,其中 A2 虛擬機器是高效能運算的 VM 類型。Google 是唯一在單一虛擬機器中提供 16 NVIDIA A100 GPUs 的雲端服務供應商,使用戶得以訓練大量的 AI 模型(very large AI models)。使用者進行單一節點機器學習訓練時,無須在不同虛擬機器層配置多個虛擬機器,即可從一個 NVIDIA A100 GPU 擴展至 16 GPUs。此外,用戶可選擇較小的 GPU 配置,例如在每個虛擬機器中配置 1、2、4 或 8 個 GPUs,讓用戶在擴展工作量時更具有彈性,自由選擇所需的 GPU 數量。

A2 虛擬機器系列旨在滿足現今最高度需求的應用程式,像是配置 CUDA 的機器學習(ML)訓練及推論等工作負載。此虛擬機器系列是以 A100 GPU 為核心,與前一代的 GPU 相比,可提供 20 倍的運算性能,並有 40 GB的高效能 HBM2 GPU 記憶體。為加速多個 GPU 的工作效能,A2 虛擬機器採用 NVIDIA 的 HGX A100 系統,可提供高速 NVLink GPU 對 GPU的頻寬,每秒傳輸速度高達 600 GB,並配置 96 Intel Cascade Lake vCPU,並可針對快速資料傳輸至 GPU 選配本地 SSD 硬碟,以及最高 100 Gbps 聯網速度。A2 虛擬機器在 GPU 伺服器平台上,將完整的 vNUMA 透明度(vNUMA transparency)加入架構中,來支援進階性能調整。Google Cloud 在全球各地皆能提供這些 GPU。

針對水平擴展工作負載,提供「最佳成本效益」的 VM 選擇

針對水平擴展的工作負載,Google Cloud Tau VM 系列的第一個機器類型 T2D 是基於第三代 AMD EPYC 處理器及跨級 VM,此機器在性能及性價比來說皆優於現今其他雲端服務商。

Tau VMs 與其他雲端服務商一般用途的 VM 相比 (資料來源),在絕對性能(absolute performance)上高於對手 56%,而在性價比(price-performance)方面則高於對手 42%。 以 AMD EPYC 處理器為基礎的虛擬機器支援的 x86 兼容性,可為您帶來最佳化性能提升及成本,且不需要將應用程式套用(port)至一個新的處理器架構。如欲試用 T2D 機器類型,請參考此連結

在 SAP HANA 方面,Google Cloud 已使用 SAP 展示我們是如何在公共雲 (96TB)中運行世界上最大的橫向擴展 HANA 系統。透過此創新應用,即使您的事業快速成長,也毋需擔心系統的擴展性。

icon/enlarge

二、GCE 機器維護與資安

GCE 支援「即時遷移」,無須擔心系統維護停機時間

Google Compute Engine 提供即時遷移(無中斷維護,non-disruptive maintenance),讓您的虛擬機器即使在主機系統事件發生時,如軟硬體更新時,仍能持續運作。Compute Engine 能在不重新啟動虛擬機器的情況下,將您運作中的虛擬主機遷移至同區其他主機。即時遷移(live migration)讓 Google 能執行維護以維持您基礎架構安全性及可靠性,同時不中斷您任何的虛擬機器。當一台虛擬主機規畫進行即時遷移時,使用者將會收到 Google 的維護提醒通知。

即時遷移讓您的機器在下列情形仍能保持運作:

  • 定期基礎設施維護及升級
  • 資料中心內的網絡及電網(power grid)維護
  • 損壞的硬體設備,如記憶體、CPU、網路介面卡、硬碟、電源等。此維護基於最佳努力原則。如果硬體設備完全損壞或是導致即時遷移無法進行,虛擬機器將會當機且自動重新啟動,並且將 Host Error 紀錄寫進日誌中。
  • 主機作業系統及 BIOS 升級
  • 安全性相關升級
  • 為映像檔及封包配置進行變更,包括變更主機根目錄的分割磁區

即時遷移並不會變更 VM 任何屬性或性能,而是將主機中正在運作的 VM 移轉至同個 zone 內的另一台機器。虛擬機器的所有性能及屬性皆會保持原狀,包含內部及外部 IP 地址、機器元數據(instance metadata)、區塊儲存資料及容量、作業系統及應用程式狀態、網絡設定、網絡連線等。這有益於減少維運的費用,讓基礎設施可以從已知的良好狀態中自動修補,並且將進階且持續性的威脅降至最低,幫助您打造更穩健架構安全狀態。

欲知更多細節,請閱讀此文章,了解 Google 工程團隊使用 Google Cloud 即時遷移一年時間的經驗分享

GCE 資安防護使 VM 免於進階、持續性的攻擊

建立可信任的環境需要多方要素的配合,包含硬體、韌體、主機及使用者操作系統。然而,像是開機型惡意程式或韌體中的 rootkits 等安全威脅,可長時間不被偵測到,即使用戶已安裝合法軟體,受到感染的 VM 仍然可以在被入侵的情況下開機運行。

受防護的虛擬機器可保護您的系統免於下列攻擊:

  • 惡意使用者 OS 韌體,包含惡意 UEFI 延伸、Guest OS 開機型及內核漏洞、Malicious insiders within your organization、組織內部的惡意成員

因此,受防護的虛擬機器使用以下方法,來防止此類進階且持續性的攻擊:

  • 統一可延伸韌體介面(UEFI)BIOS:確保韌體皆有簽名並已驗證
  • 安全及測量開機:確保虛擬機器開機時使用的是預期中的健全內核
  • Virtual Trusted Platform Module (vTPM): Establishes root-of-trust, underpins Measured Boot, and prevents exfiltration of vTPM-sealed secrets
  • 虛擬信賴平台模組 (vTPM):建立信任根(Root of Trust,RoT)、測量開機,並預防 vTPM 加密資料外洩
  • 完整監測:提供防竄改日誌,並與 Stackdriver 整合,以協助您快速辨識、修復變更到已知的完整狀態

Google 使得用戶能輕鬆部署受保護的 VMs,並且一鍵輕鬆執行。

GEC 支援「機密運算」,可對使用中的資料進行加密

Google Cloud 是機密運算聯盟(Confidential Computing Consortium,CCC)的創始成員之一。除了在傳輸和靜態處理加密資料時使用客戶管理的帳戶加密金鑰 (CMEK)及客戶提供的加密金鑰外(CSEK),Google 也推出機密虛擬機器(Confidential VM)來做到在資料傳輸過程中的加密作業。機密運算使用以處理器為核心的技術,使得用戶運用公有雲處理資料時,能同時對資料進行加密。透過機密虛擬機器,用戶只需勾選單一核取方塊,便能將 Google 運算引擎處理器正在使用的記憶體進行加密。

所有機密虛擬機器皆支援先前提及的「受防護的VM」功能。您可以將受防護的 VM 視為協助處理 VM 的完整性,而機密虛擬機器則是協助處理仰賴 CPU 功能的記憶體加密。

藉由機密虛擬機器以及 AMD 安全加密虛擬化 (SEV) 所建構的機密環境,Google Cloud 可以在無權取得加密鑰匙的情況下,將客戶的機密代碼以及其他資料於記憶體中進行加密儲存。另外,機密虛擬機器使得用戶能減少對於使用公有雲的疑慮,包括必須依賴 Google 基礎設施,或是 Google 內部人員擁有訪問客戶資料權限等。

三、GCE 資料儲存

實現高可用性的 Regional Persistent Disk

Regional Persistent Disk 是一個儲存服務選項,可在一個 Region 內的兩個 zones 間同步複製資料。若您需要確保重要應用程式的可用性,Regional Persistent Disk 會是一個很好的選擇,能提供具成本效益的持久儲存服務,也能在相同 region 中的兩個 zones 間複製資料。

在 Google Cloud console 中便能輕鬆設置 Regional Persistent Disk。若您要在 Compute Engine 上設計彈性的系統高可用性服務,可將 Regional Persistent Disk 結合其他的最佳做法(如使用快照備份資料)以建立高可用性且可進行災難復原(disaster recovery)的基礎架構。

Regional Persistent Disk 也可以與 regional managed instance groups 一同運作。在少見的 zone 中斷事件中,Regional Persistent Disk 可將工作量故障轉移至另一個 zone 以繼續進行輸入/輸出。當發生事件時(如:主機/虛擬機故障和 zone 連線中斷),Regional Persistent Disk  可極大化應用程式的可用性以及資料安全防護,有助於達到近乎零停機,滿足企業的復原點目標(RPO)與復原時間目標( RTO )需求,以及其他嚴謹的服務級別協定。

四、GCE 規模擴展

可預測的自動擴展(Predictive auto scaling) 

用戶使用預測性自動擴展(predictive autoscaling)功能,可以縮短應用程式初始化的時間,或是根據每日、每週循環中可預測的變化來調整應用程式負載。當您開啟此功能時,Compute Engine 會根據您的 Managed Instance Group 歷史紀錄來預測未來的負載需求,並根據預測事先調整 MIG 規模,使得新的 instances 可以在達到負載時提供服務。

如果未使用預測性自動擴展功能,自動調節器僅會根據即時觀察的負載變化進行即時的調節;至於啟用此功能後,自動調節器將能同時處理即時資料和歷史資料,來應付現有及預測的未來負載。預測機制每隔幾分鐘將會自動刷新資料(比 competing clouds 還快),並考慮每日和每週的趨勢,優化負載模式的預測模型,使其更為準確。

Google 預計於今年 10 月會調整 VM 計費方式,欲了解更多資訊,歡迎聯繫我們,將有專人為您解答。本文為 GCE 重點特色摘要,欲了解更多 VM 類型與管理相關資訊,歡迎參考以下資料:

https://cloud.google.com/compute/docs/instances

https://cloud.google.com/compute/docs/instances/live-migration

https://cloud.google.com/compute/shielded-vm/docs/shielded-vm

https://cloud.google.com/compute/docs/instances/spot

本文改編自 Google Cloud Blog: 10 ways Google Cloud IaaS stands out 

訂閱 CloudMile 電子報

所有 CloudMile 最新消息、產品動態、活動資訊和特別優惠,立即掌握。