智能語音應用利器:Google Speech API

文/Allen|圖/Quen|編輯/Quen

自嬰孩時期開始,語言就是人類最自然的溝通方式,這就無怪乎各大廠商都爭相研究如何透過語音做人機互動了。最近語音互動可說是來到一個新高峰,從幾年前開始慢慢發展的 Siri、Google Assistant 等語音助手,到正火紅的 Google Home、Apple HomePod、Amazon Alexa 等等智能家居的全方位控制中心,其中最核心的能力就是—聽懂使用者在說什麼。

Google Speech API能做什麼?

利用機器學習即時將語音轉化為文字

Google Cloud Speech API 讓開發人員透過易使用的 API 中的強大神經網路模型,將聲音轉換成文字。這個 API 能辨識超過 80 種語言和方言,可支援全球的使用者。您可以將使用者透過應用程式麥克風擷取的語音轉換成文字、啟用語音命令控制功能,或是轉譯音訊檔等等。利用 Google 自家產品所採用的技術,辨識在請求中上傳的音訊,並整合搭配使用 Google Cloud Storage 中的音訊儲存空間。

作為 Google Cloud Platform (GCP) 的一員,Google Speech API是個能讓開發者快速運用 GCP 強大能力的語音辨識 API。只要對這個 API 傳入音訊,透過 GCP 後端強大的神經網路 (neural network),加上多年來 machine learning 的累積,就能即時傳回文字。而且目前不僅支援主流的英文、中文、日文等等,更支援林林總總共 80 種以上的語言!

比起其他語音辨識引擎,Google Speech API 的強項之一在於支援「串流處理」(Real-Time),也就是,使用者不必把整句話說完,Google Speech API 就已經開始陸續丟回辨識結果了!這能讓語音互動更有反饋感,降低延時,使用者挫折度就降低很多。

除此之外,Google Speech API 還能做到「情境感知辨識」(Content-Aware Recognition)。什麼意思呢?也就是它會依據使用者所在的使用裝置、位置、場景等額外資訊,來增加辨識的準確率!例如當場景被設定在餐廳時,「訂位」、「點餐」等等的詞彙就會比較容易被辨識出。

Google Speech API

提供詳細的功能說明及計價方式,可進一步了解 Google Speech API 細節

QickStart

Google 官方說明文件,提供開發者快速入門的導覽及進階應用的相關規範。

這麼厲害!已經有哪些產品採用了嗎?

其實,在各個 Google Apps 中,早已悄悄接入了 Google Speech API 了。例如,Google Maps 可以透過語音直接搜尋地點,讓開車、騎車的使用者可以搜尋並導航到想去的地點,同時又不會造成行車安全上的危險;或者像是 Google Now 這樣的全能型助手,由於擁有串流處理以及情境感知辨識的功能,它就像是有讀心術一般的貼心。

Google Speech API 對開發者來說絕對是個強大無比的工具,透過與其他 Google Cloud Platform 的諸多 API 串接,在開拓互動方式的新疆域無疑是如虎添翼;對於一般使用者來說,Google Speech API 則讓智慧語音對話的未來越來越近了。

訂閱 CloudMile 電子報

所有 CloudMile 最新消息、產品動態、活動資訊和特別優惠,立即掌握。