【Google Cloud Next'25】Google Chirp 深度解析:新一代通用語音模型的技術、應用與比較

近年來,語音辨識技術發展快速,成為人工智慧領域的熱門焦點。Google Cloud 最新推出的 Chirp 模型[1][2],以出色的辨識能力與多語言支援能力,引起業界討論。本文將探討 Chirp 的技術設計與實際應用場景,並與其他主要語音模型進行比較,帶領讀者一窺 Chirp 的發展潛力與技術特點。

Google Chirp 模型介紹

Google Chirp 是 Google 最新一代的語音模型系列,涵蓋自動語音辨識(ASR)和語音合成(TTS)技術。其核心理念是「通用語音模型」(Universal Speech Model, USM),以單一模型處理多種語言的語音資料。第一版 Chirp 擁有 20 億參數,並以 1,200 萬小時的語音和 280 億句文本的大規模多語言資料進行訓練[1]。此模型目前已經進化到第三版。

Chirp 模型架構與訓練技術

Chirp 採用編碼器-解碼器(encoder-decoder)的架構設計,其中編碼器採用 Conformer,也就是一種結合卷積與 Transformer 優勢的神經網路架構。[3]。Conformer 結合自我注意力、前饋網路和卷積模組,能夠有效地處理語音的梅爾頻譜特徵。Chirp 可靈活搭配不同類型的解碼器,如 CTC、RNN-T 或 LAS,以支援語音辨識、翻譯等多種應用。
Chirp 的訓練流程採用自我監督學習結合微調的多階段策略[3]:

  1. 自我監督預訓練:在數百種語言的未標記語音上進行預訓練,建立對語音的通用理解。
  2. 多模態訓練(可選):引入文字編碼器,將文字轉換為向量並與語音編碼器輸出結合,讓模型能同時理解語音與文字的對應關係。
  3. 有監督微調:在少量標註資料上微調模型,進一步針對特定任務做優化。

這樣的訓練策略,讓 Chirp 即使在低資源語言的情況下,也能展現不錯的辨識效果。

語音辨識能力與多語言支援

Chirp 模型在語音辨識準確度上達到業界頂尖水準。根據第三方的評測報告[1],不僅在英語語音辨識上可達到 98% 的字詞正確率,在許多低資源語言上也比先前模型的錯誤率降低 300% 以上。除此以外,Chirp 採用單一模型支援超過 100 種語言,其多語言預訓練使得編碼器隱表示同時涵蓋了 300 多種語言的特徵[3]。

語音生成能力與擴展功能

除了語音辨識,Google 也逐步將 Chirp 技術應用到語音生成領域。最新的 Chirp 3 模型針對文本轉語音(Text-to-Speech, TTS)進行強化,能夠從文字產生極為自然流暢的人聲語音。Chirp 3 具備接近真人的語音表達能力,並提供 8 種不同風格的合成聲線和 31 種語言地區的在地化口音[4]。

與其他語音模型的比較

我們將 Chirp 與 OpenAI Whisper、Meta MMS 以及 wav2vec 2.0 進行比較[1]:

  • OpenAI Whisper:以開源特性和高精度著稱,受到開發者和第三方服務商的青睞。在跨域、跨語言的零樣本測試中表現出色。
  • Meta MMS:專注於極端多語言支援,目標是將語音技術的覆蓋範圍拓展到 1,100 多種語言。
  • Meta wav2vec 2.0:作為基礎技術,為多語種語音模型奠定基礎,採用自我監督式語音表示學習框架。

在性能比較方面,Chirp/USM 在多語言任務上相較 OpenAI 的 Whisper 展現明顯優勢。研究顯示,USM 在多語種平均詞錯誤率上比 Whisper 降低 32.7%。

GCP 上如何使用 Chirp 模型

使用 Chirp 的常見的方式有兩種[2],一種是從 Speech-to-text 服務使用,另一種是從 Media Studio 服務來使用,分別在以下介紹:

從 Speech-to-text 服務使用

(1) 本地端呼叫 Python SDK,其使用 Chirp 的步驟如下:

  • 選擇合適的專案,並且確認該專案有綁定 Billing Account。
  • 啟動 Speech-to-Text APIs。
  • 確認操作的使用者有 Cloud Speech Administrator 權限。
  • 安裝 gcloud cli,且建立認證 credentials 給使用者使用。
icon/enlarge

我們以官方提供的 Chirp 模型同步語音辨識程式碼當作範例:

icon/enlarge

(2) 從 GCP Console 執行

  • 登入 GCP Console,點選 Speech,並啟動 API。
  • 點選 Transcriptions,建立 New Transcriptions。
icon/enlarge

(3) 從 Media Studio 服務使用

  • 從 Vertex AI 的 Media Studio 執行 Chirp 3: HD Voice 模型:
icon/enlarge

Google Chirp:語音技術的新引擎,從雲端服務到日常應用

Google Cloud 推出的 Chirp 模型系列,透過 Conformer 架構與自我監督式訓練,達成優異的語音辨識效果,並支援多種語言,展現跨語音合成與翻譯等應用的潛力。目前,Chirp 已成為 Google 雲端語音技術的核心引擎,逐步應用在 Pixel 裝置、YouTube 與即時翻譯等產品中,提升語音互動的準確度與彈性。使用者現在只需登入 GCP Console,進入 Vertex AI 的 Media Studio,即可依照介面指引,快速體驗並部署 Chirp 提供的語音功能。

參考資料

  1. https://www.clarifai.com/blog/evaluate-the-best-speech-to-text-models
  2. https://cloud.google.com/speech-to-text/v2/docs/chirp-model
  3. https://research.google/blog/universal-speech-model-usm-state-of-the-art-speech-ai-for-100-languages/
  4. https://medium.com/@aitechtoolbox48/how-googles-chirp-3-hd-is-quietly-changing-ai-interaction-f63ca9cd6211
  5. https://cloud.google.com/speech-to-text/v2/docs/chirp_2-model
訂閱 CloudMile 電子報

所有 CloudMile 最新消息、產品動態、活動資訊和特別優惠,立即掌握。