【Google Cloud Next'25】打造你的專屬音樂!Google Lyria 技術解析與產業應用全攻略

本文將深入剖析 Google DeepMind 最新推出的 AI 音樂生成模型 Lyria,從技術架構、功能細節、市場應用潛力等面向進行分析,並與其他主流競品進行比較。透過對 Lyria 的全面評估,本報告旨在為企業決策者、技術開發者及音樂產業相關人士提供相關資訊,以了解 AI 音樂生成技術的發展現況及未來趨勢,並評估其商業應用價值。

Lyria 是什麼?

Google Lyria 是 Google DeepMind 與 YouTube 在 2023 年合作推出的最新 AI 音樂生成系統,號稱目前最先進的音樂生成模型。Lyria 能透過文本提示生成高品質音樂,包含樂器伴奏和人聲演唱,並提供使用者調整生成的音樂風格和表現方式。與以往的 AI 音樂模型相比,Lyria 不僅能同時生成歌詞、伴奏以及虛擬歌手的聲音,還能模擬特定藝術家的風格。目前已在 YouTube Shorts 等平台小規模推出,讓創作者能初步體驗生成短音樂的創作工具。

技術背景與推測

儘管 Google 尚未公開 Lyria 的完整架構細節,但推測其設計延續先前的研究成果 MusicLM。Lyria 很可能採用 Transformer-based 的生成架構來處理長時序音樂,確保樂曲在多小節、多段落範圍內的連貫性。也有分析推測這類系統可能融合擴散模型與 Transformer 的優點(稱為「Diffusion Transformer」架構)來提升生成質量;然而,整體而言 Lyria 更可能著重於序列生成技術,以因應音樂創作過程中長程結構與多軌同步的挑戰[1][2]。

訓練數據與版權管理

為了支撐 Lyria 複雜的能力,Google 極可能使用大規模且多樣化的音樂資料進行訓練,包括各種曲風的音訊以及相對應的文本描述和歌詞。Google 與多位知名音樂人和唱片公司合作,確保訓練與生成過程符合版權和產業標準。這些合作意味著 Lyria 的訓練數據不僅量大,來源也更合規,這些合作代表 Lyria 在訓練階段使用的資料兼具規模及合法性,涵蓋多語言、多風格的音樂與歌詞,有助於模型學習更廣泛的音樂表達能力[2]。

Lyria 模型架構與功能分析

模型架構概述

綜合推測,Lyria 採用多階段的生成流程來實現從「文字描述」到「完整歌曲」的轉換。首先,系統可能使用大型語言模型(LLM)根據使用者輸入的主題或關鍵詞,生成對應的歌詞或文本腳本;接著,再由音樂生成模型依據歌詞和風格描述,創作出旋律、和聲編排與配器,並將歌詞轉換為對應的人聲演唱[3]。在音訊生成方面,Lyria 很可能採用基於 Transformer 的序列模型來處理音訊 token,並結合自回歸與並行生成技術,在音質與生成效率之間取得平衡[1]。

擴散模型的潛在應用

目前觀察顯示,Lyria 並非典型的擴散式音樂生成模型。它更側重於高保真與長時間片段的生成能力,這與 Transformer 類型的序列模型特性相符。不過,也不排除 Google 在某些細節上引入擴散技術作為輔助,像是用來加強音質或後期降噪處理。總體而言,Lyria 可視為基於 Transformer 技術的多模態生成模型,整合歌詞(文本)與音訊(旋律與人聲)兩大部分,並針對完整歌曲生成進行優化。

訓練資料與版權保護

由於訓練過程涉及大量受版權保護的音樂,Google 在開發 Lyria 時格外重視版權合規與風險控管。模型的培訓數據應該包含已授權音樂、來源清楚的素材或屬於公有領域的作品,並可能使用 Content ID 等技術過濾明確受版權保護的旋律。就使用層面來說,Lyria 也設有限制,避免用戶請求生成特定知名歌曲或模仿未授權藝人。另一方面,Google 也導入自家的 SynthID 數位浮水印技術,會在每段生成的音訊中嵌入人耳無法察覺的聲音標記,方便日後追蹤與辨識[4]。

音樂生成能力與特色分析

Lyria 展現出全面的音樂生成能力,可創作各種類型和元素的音樂內容[1][4][5],具體包括:

  • 人聲歌唱: 生成擬真的人聲演唱,並搭配清晰可辨的歌詞內容。
  • 多樂器伴奏與和聲: 具備處理多軌道音訊的能力,可創作出涵蓋多種樂器的豐富編曲。
  • 風格與情緒控制:靈活對應各種音樂風格、流派和情緒的控制相當靈活。
  • 完整的歌曲結構:擅長處理較長時間的音樂序列,能生成段落結構完整的歌曲。
  • 歌詞與語言: 可產生語意連貫的歌詞,並將其融入旋律之中。

主要應用場景與創作支援

由於具備強大的音樂自動創作能力,Lyria 在許多影音內容與音樂產業領域都有潛在應用價值[5]:

  • 影片背景音樂與配樂: 可依據影片主題或場景描述,自動生成貼合氛圍的背景配樂。
  • 廣告配樂與品牌音效: 能快速製作行銷活動所需的配樂或品牌主題音樂。
  • 遊戲和沉浸式體驗配樂: 遊戲開發者可利用 Lyria 為不同關卡、自訂角色或特殊事件動態生成背景音樂。
  • 個人創作與音樂靈感: 為音樂人和創作者提供一種輔助創作工具。
  • 一般用戶娛樂與內容創作:讓即興音樂創作變得更加直覺與輕鬆。

與其他主流音樂生成工具的比較

本節將 Lyria 與 Suno、Udio 和 Meta 的 MusicGen 等工具在生成品質、控制靈活度、語言支持、開放性和使用方式等方面進行比較[2][6][7]。

  • 生成品質:Lyria 整體的音樂生成效果被評為目前業界領先水準。
  • 控制靈活度: Lyria 提供豐富的控制維度。
  • 語言與歌詞支持: 目前 Lyria 公開展示主要以英文內容為主。
  • 開放程度: Lyria 為 Google 內部封閉開發的模型,尚未開放給第三方使用。
  • 使用方式與平台整合: Lyria 的使用管道主要透過 Google 自家平台。

與 Google 生態系統的整合及應用方式

Lyria 與 YouTube、Google Cloud Vertex AI、Gemini Studio / Google AI Studio 和影音剪輯與特效(VideoFX 等)進行整合,並逐步開放給更多創作者使用。至於 GCP 的使用者現在只需登入 GCP Console,點選 Vertex AI 中的 Media Studio,即可根據 UI 介面指示輕鬆使用 Lyria 的強大功能。

從技術突破到產業應用:Lyria 的角色與潛力

Google 推出的 Lyria 模型,在當前音樂生成技術中取得重大突破,無論在音質呈現、風格多樣性或結構控制上,都達到實質性的進展。隨著生成式技術逐漸融入創作,AI 在音樂製作中的角色將漸趨重要,而 Lyria 無疑是目前最值得關注的技術之一。本報告主要提供對此領域感興趣的讀者全面、深入的分析,並作為相關產業規劃決策的參考依據。

參考資料

  1. https://deepmind.google/discover/blog/transforming-the-future-of-music-creation/
  2. https://aibusiness.com/nlp/create-songs-with-ai-google-deepmind-debuts-lyria-for-youtube
  3. https://www.tomsguide.com/ai/meet-udio-the-most-realistic-ai-music-creation-tool-ive-ever-tried
  4. https://www.infoq.com/news/2023/11/google-deep-mind-lyria-music/
  5. https://cloud.google.com/blog/products/ai-machine-learning/expanding-generative-media-for-enterprise-on-vertex-ai
  6. https://cloud.google.com/blog/products/ai-machine-learning/expanding-generative-media-for-enterprise-on-vertex-ai
  7. https://www.infoq.com/news/2023/11/google-deep-mind-lyria-music/
訂閱 CloudMile 電子報

所有 CloudMile 最新消息、產品動態、活動資訊和特別優惠,立即掌握。