Google Gemini Live API 是一套專為即時互動應用設計的應用程式介面 (API)，支援串流對話及多模態輸入與輸出。使用此 API，開發者可以讓應用程式和 Gemini 語言模型進行即時、順暢的互動[1]，支援語音輸入、視覺辨識與文字處理等多模態功能，滿足即時互動應用的開發需求。

其運作流程如下圖[9]：

Google Gemini Live API 運作流程圖

Gemini Live API 五大核心功能介紹：實現語音、視覺與文字整合的 AI 互動平台

低延遲串流回應：順暢快速的對話體驗
Gemini Live API 透過 WebSocket 雙向通訊協定，實現低延遲的資料傳輸，能即時串流部分回應（token），大幅減少用戶等待時間，提供順暢、即時的對話體驗[1]。
語音輸入與輸出：多語言的智慧語音互動
支援語音輸入，並內建多語言文字轉語音（Text-to-Speech）引擎。用戶可以選擇多種聲音、語言及口音，自行設定人聲語音回應，提供更自然流暢的語音互動體驗[1][2]。
視覺與多模態輸入：強化模型對影像與影片的理解能力
支援多模態輸入，包括靜態影像、影片畫面等。透過 Live API 串流傳送視覺內容，讓模型即時辨識環境、文件或場景，並提供對應的文字講解或回答[1][2]。
即時對話與中斷控制：打造更自然的人機互動模式
支援雙向即時對話，用戶可在模型回答途中即時中斷並提出新問題。模型能即時辨識語音中斷信號，停止當前回答並理解新提問，提供更自然的交談模式[2]。
持續上下文與多輪對話：長時間互動不中斷
提供會話 (session) 管理機制，能在 24 小時內持續保留用戶的對話內容，支援長對話的滑動窗口機制，確保對話連貫性，實現長時間的互動體驗[1]。

Gemini Live API 與傳統 Gemini API 技術的優勢比較

相較於傳統 Gemini API（如 Gemini 1.5 Pro），Gemini Live API 在功能與使用方式上有顯著差異：

串流互動 vs. 靜態請求：
與傳統「請求-回應」的模式不同，Gemini Live API 採用 WebSocket 長連線串流機制，可持續進行資料交換，支援多輪對話與內容即時更新[2]。
多模態與語音支援：
Live API 支援語音輸入與輸出，同時可處理視覺資料（如影像、影片）。開發者無需額外整合第三方語音引擎，即可快速建立語音對話與多模態應用[2][3]。
即時對話控制能力：
用戶可在模型生成回應的過程中中斷對話，插入新的語音或指令。模型可根據新的輸入即時調整回應方向[1]。
效能取向差異：
採用以速度為優先的 Flash 模型，針對回應速度與資料吞吐量進行優化。雖可能犧牲部分語意精確度，但大幅降低延遲、提升效能[1][3]。
自動化處理複雜任務：
支援原生工具調用（Function Calling）與代理鏈（Toolchains）功能，模型可在單次對話中主動呼叫外部工具，完成複雜操作[2]。

結合即時回應、語音辨識、多模態處理與長記憶能力，讓使用者能在對話中獲得更即時、自然的互動回應。

高輸出速率與低延遲架構：
平均首個回應 token 延遲僅約 0.53 秒，整體生成速度達每秒約 170 tokens[4]。
串流回調與事件處理機制：
提供完整的串流事件回調機制（Streaming Callbacks），開發者可以在資料傳送的過程中，設定程式去偵測並即時處理特定狀況或回應[1]。
語音合成與語音識別支援：
採用語音合成（TTS）與語音辨識（ASR）引擎，支援多種語言、聲線與口音選擇。透過語音活動偵測（VAD）技術，提升語音互動準確性與流暢度[1]。
多模態上下文編碼：
採用統一編碼技術（Unified Token Representation），可將圖片、音訊、文字等不同模態的輸入轉為一致格式的 token 序列進行處理[1]。
長上下文支援與雲端記憶機制：
支援 100 萬 tokens 級別的上下文，並具備雲端暫存功能，能將內容保留 24 小時，同時提供滑動窗口機制[1][3][5]。

API 端點與通訊協定：採用 WebSocket 雙向通訊協定，支援持續的串流數據交換[6]。
授權方式：需要 Google Cloud 的 API 金鑰或 OAuth 憑證[7]。
參數與請求配置：可透過會話配置（session config）控制模型行為與輸出格式，包括模型選擇、回應形式、語音設定、系統指示訊息、工具定義等[7]。
SDK 與開發者工具：提供多語言的 SDK（包括 Python、Node.js / 瀏覽器 SDK）簡化 Live API 的使用，以及 WebRTC 支援和範例、交互式控制台（Google AI Studio）等工具[2][7]。

以下是使用 Live API 做文字生成的範例（使用 Python3.9 版本）[8]

Gemini Live API 支援語音、文字與視覺多模態互動，特別適合開發需要即時回應、語音對話與上下文記憶的應用。以下整理出五大實際應用場景：

在多模態與即時互動應用方面，Gemini Live API 相較於 OpenAI GPT-4 Turbo 及 Anthropic Claude 的串流功能，具備以下優勢：

Google 推出 Gemini Live API 是建構未來即時語音與視覺互動平台的關鍵工具。其低延遲串流架構、語音與影像支援、上下文記憶管理等功能，為開發者打造：