圖文、影音多模態學習!Google 全新推出大型語言模型 Gemini 處理複雜應用

雖然推出時間不是最早,但對於同時橫跨文字、程式碼、圖片、影音等多模態(multimodal)的學習與理解,Google 日前發表的多模態 AI 模型 Gemini 可說是成功帶起新一波 AI 議題討論。以客服機器人的應用來說,使用 Gemini 作為模型將不只是能從對話字面上理解客戶,更能同時從表情、聲調接收到客戶話語中的意圖,能處理包括文字、音訊、程式碼、圖像及視訊等內容。據實測結果,Gemini 是第一個在大規模多任務語言理解(MMLU)上超越人類專家的模型,且在 32 項 AI 測試中,有 30 項測驗結果超越 GPT-4(V)。本文將帶您了解 Gemini 有哪些突破與未來潛在應用。

Gemini Ultra/Pro/Nano 三種模型,滿足企業到終端裝置不同需求

在第一個版本 Gemini 1.0 中提供三種不同規模的模型,分別是 Ultra、Pro 與Nano。Gemini Ultra 有著最先進且強大的效能,可適用於進行推理及多模態等高度複雜的任務;Gemini Pro 在成本及延遲性上做了優化,通用性最廣;Gemini Nano 則是適用於終端裝置上最輕量但有效率的模型。

與目前市面上最先進的大型語言模型相比,Gemini Ultra 在 32 種學術基準測試中有 30 個測試結果領先對手,前述的 MMLU 即是其中一項。MMLU 是結合數學、物理、醫學、歷史、法律、倫理等 57 個領域來測試知識及解決問題能力的基準測驗,Gemini Ultra 得分為 90.0%。(如圖一) 詳細檢測報告請點選此連結

圖一:在基準測驗MMLU中,Gemini Ultra 得分為 90.0%。
icon/enlarge

此外,目前 Google Bard 服務中所使用的正是微調過後的 Gemini Pro 模型,比起先前的 Bard 版本,它能提供更佳的推理、規劃與理解能力。(經實測可支援繁體中文,但撰稿當下仍無法處理圖片),在不久的將來,Google 計劃推出進階版 Bard,瞄準企業用戶或開發者族群提供服務。

原生多模態模型可處理複雜任務、應用多元

如前所述,Gemini Ultra 的強項在於多模態模型。DeepMind 產品副總裁 Eli Collins 在媒體發佈會上提到,其他家多模態模型的標準建立方法是針對不同模態分別訓練各自的元件,再將它們拼接在一起,如此一來這些模型雖然在執行某些任務時有很好的表現,例如描述圖片,但當它們要處理較複雜的概念或推理任務時則會遇到困難。

有鑑於此,Gemini 一開始就是以原生的多模態模型來訓練,也就是在大量的程式碼庫、不同語言的文字、圖像、影音等資料模型中進行預訓練,接著以另外其他多模態資料來微調,以提升其效能。相較於其他 AI 模型以理解文字與圖片等內文為主,Gemini 能察覺、理解並處理包括文字、圖片、影音或程式碼中的細節資訊,像是回答數學或物理題目,或是「這段影片中發生了什麼事?」等問題。

圖二:Gemini 能理解並處理圖像與影音,根據指令與用戶互動或給予相關建議。
icon/enlarge

Gemini 潛在應用場景

而 Gemini 這類多模態模型未來的應用十分多元,可以應用在醫療保健、教育、娛樂、機器人等各種產業應用。以下舉例 Gemini 於烹飪、室內設計發想及運動訓練等應用。在烹飪方面,如用戶提供一張圖片顯示烹煮蔬菜歐姆蛋所需的所有食材,AI 便能提供步驟教學,告訴用戶「第一個烹調步驟是打蛋並攪拌」,此時,用戶再輸入第二張照片並詢問是否已煎妥,AI 也能接著回答「這面已煎妥請翻面」;室內設計相關應用則是用戶提供參考圖片、場地空間坪數、喜好需求等文字,AI 即可提供數個室內設計參考範本;運動教練則是能提供選手的動作影片,讓 AI 針對動作進行調整建議。

圖三:用戶提供一張圖片顯示烹煮蔬菜歐姆蛋所需的所有食材,Gemini 便能提供步驟教學。
icon/enlarge

在 Google 發布的一段影片中,Gemini 的數理能力展現無遺。例如,在不需要光學字元辨識(OCR)協助下,用戶只要輸入一張手寫的數學考卷,Gemini 能立即批改指出錯誤,進一步詢問,Gemini 更能回答錯誤思維在何處,不只能逐步地詳細解題,還能進一步產出更多類似題型提供練習。

圖四:Gemini 能夠立即批改手寫的數學考卷並指出錯誤。
icon/enlarge

儘管現階段 Google 釋出的影片中,有許多影片為經過重製的片段,Gemini 於圖像、影音的應用與互動流暢度仍待實測與持續優化,但不可否認 Gemini 展示的多模態模型與其背後帶來的多元應用場景,仍相當值得大眾期待。

如同 Google 先前將 Duet AI 整合至旗下眾多產品,下一步 Google 也會打造 Gemini 結合自家雲端產品或裝置的生態系。未來開發者和企業客戶可以透過 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 來存取 Gemini Pro,Gemini 也將出現在更多 Google 的產品服務中,例如搜尋、廣告、Chrome 和 Duet AI 等。而 Google Pixel 8 Pro 也將是第一款搭載 Gemini Nano 的智慧型手機,它將會首波支援錄音程式重點摘要 (Summarize) 等新功能。

訂閱 CloudMile 電子報

所有 CloudMile 最新消息、產品動態、活動資訊和特別優惠,立即掌握。