雖然推出時間不是最早,但對於同時橫跨文字、程式碼、圖片、影音等多模態(multimodal)的學習與理解,Google 日前發表的多模態 AI 模型 Gemini 可說是成功帶起新一波 AI 議題討論。以客服機器人的應用來說,使用 Gemini 作為模型將不只是能從對話字面上理解客戶,更能同時從表情、聲調接收到客戶話語中的意圖,能處理包括文字、音訊、程式碼、圖像及視訊等內容。據實測結果,Gemini 是第一個在大規模多任務語言理解(MMLU)上超越人類專家的模型,且在 32 項 AI 測試中,有 30 項測驗結果超越 GPT-4(V)。本文將帶您了解 Gemini 有哪些突破與未來潛在應用。
Gemini Ultra/Pro/Nano 三種模型,滿足企業到終端裝置不同需求
在第一個版本 Gemini 1.0 中提供三種不同規模的模型,分別是 Ultra、Pro 與Nano。Gemini Ultra 有著最先進且強大的效能,可適用於進行推理及多模態等高度複雜的任務;Gemini Pro 在成本及延遲性上做了優化,通用性最廣;Gemini Nano 則是適用於終端裝置上最輕量但有效率的模型。
與目前市面上最先進的大型語言模型相比,Gemini Ultra 在 32 種學術基準測試中有 30 個測試結果領先對手,前述的 MMLU 即是其中一項。MMLU 是結合數學、物理、醫學、歷史、法律、倫理等 57 個領域來測試知識及解決問題能力的基準測驗,Gemini Ultra 得分為 90.0%。(如圖一) 詳細檢測報告請點選此連結。