近年來,語音辨識技術發展快速,成為人工智慧領域的熱門焦點。Google Cloud 最新推出的 Chirp 模型[1][2],以出色的辨識能力與多語言支援能力,引起業界討論。本文將探討 Chirp 的技術設計與實際應用場景,並與其他主要語音模型進行比較,帶領讀者一窺 Chirp 的發展潛力與技術特點。
Google Chirp 模型介紹
Google Chirp 是 Google 最新一代的語音模型系列,涵蓋自動語音辨識(ASR)和語音合成(TTS)技術。其核心理念是「通用語音模型」(Universal Speech Model, USM),以單一模型處理多種語言的語音資料。第一版 Chirp 擁有 20 億參數,並以 1,200 萬小時的語音和 280 億句文本的大規模多語言資料進行訓練[1]。此模型目前已經進化到第三版。
Chirp 模型架構與訓練技術
Chirp 採用編碼器-解碼器(encoder-decoder)的架構設計,其中編碼器採用 Conformer,也就是一種結合卷積與 Transformer 優勢的神經網路架構。[3]。Conformer 結合自我注意力、前饋網路和卷積模組,能夠有效地處理語音的梅爾頻譜特徵。Chirp 可靈活搭配不同類型的解碼器,如 CTC、RNN-T 或 LAS,以支援語音辨識、翻譯等多種應用。
Chirp 的訓練流程採用自我監督學習結合微調的多階段策略[3]:
- 自我監督預訓練:在數百種語言的未標記語音上進行預訓練,建立對語音的通用理解。
- 多模態訓練(可選):引入文字編碼器,將文字轉換為向量並與語音編碼器輸出結合,讓模型能同時理解語音與文字的對應關係。
- 有監督微調:在少量標註資料上微調模型,進一步針對特定任務做優化。
這樣的訓練策略,讓 Chirp 即使在低資源語言的情況下,也能展現不錯的辨識效果。
語音辨識能力與多語言支援
Chirp 模型在語音辨識準確度上達到業界頂尖水準。根據第三方的評測報告[1],不僅在英語語音辨識上可達到 98% 的字詞正確率,在許多低資源語言上也比先前模型的錯誤率降低 300% 以上。除此以外,Chirp 採用單一模型支援超過 100 種語言,其多語言預訓練使得編碼器隱表示同時涵蓋了 300 多種語言的特徵[3]。
語音生成能力與擴展功能
除了語音辨識,Google 也逐步將 Chirp 技術應用到語音生成領域。最新的 Chirp 3 模型針對文本轉語音(Text-to-Speech, TTS)進行強化,能夠從文字產生極為自然流暢的人聲語音。Chirp 3 具備接近真人的語音表達能力,並提供 8 種不同風格的合成聲線和 31 種語言地區的在地化口音[4]。
與其他語音模型的比較
我們將 Chirp 與 OpenAI Whisper、Meta MMS 以及 wav2vec 2.0 進行比較[1]:
- OpenAI Whisper:以開源特性和高精度著稱,受到開發者和第三方服務商的青睞。在跨域、跨語言的零樣本測試中表現出色。
- Meta MMS:專注於極端多語言支援,目標是將語音技術的覆蓋範圍拓展到 1,100 多種語言。
- Meta wav2vec 2.0:作為基礎技術,為多語種語音模型奠定基礎,採用自我監督式語音表示學習框架。
在性能比較方面,Chirp/USM 在多語言任務上相較 OpenAI 的 Whisper 展現明顯優勢。研究顯示,USM 在多語種平均詞錯誤率上比 Whisper 降低 32.7%。
GCP 上如何使用 Chirp 模型
使用 Chirp 的常見的方式有兩種[2],一種是從 Speech-to-text 服務使用,另一種是從 Media Studio 服務來使用,分別在以下介紹:
從 Speech-to-text 服務使用
(1) 本地端呼叫 Python SDK,其使用 Chirp 的步驟如下:
- 選擇合適的專案,並且確認該專案有綁定 Billing Account。
- 啟動 Speech-to-Text APIs。
- 確認操作的使用者有 Cloud Speech Administrator 權限。
- 安裝 gcloud cli,且建立認證 credentials 給使用者使用。