(相關資料圖)
繼文字生成AI模型Wordcraft、視頻生成AI模型Imagen Video后,日前谷歌方面公布了對音樂生成AI模型MusicLM的研究成果,該模型可以根據文本或圖片生成任何類型的高保真音樂。
在相關聲明中,谷歌方面展示了大量生成作品的案例,例如輸入文本“雷鬼和電子舞曲的融合,帶有空曠的、超凡脫俗的聲音,引發迷失在太空中的體驗,音樂的設計旨在喚起一種驚奇和敬畏的感覺,同時又適合跳舞”,MusicLM便可生成一段時長30秒的電子音樂;又如以世界名畫《跨越阿爾卑斯山圣伯納隘口的拿破侖》為題,MusicLM生成的音樂便莊重典雅,體現出冬日的凌厲肅殺和英雄主義色彩。
據悉,在MusicLM之前,同類產品還包括Riffusion、Dance Diffusion、人工智能研究機構OpenAI旗下的Jukebox,以及谷歌自家的AudioML等。雖然MusicLM并非首個可以根據文本生成音樂的AI模型,但得益于集成了MuLan+AudioLM和MuLan+w2b-Bert+Soundstream等多個模型的優勢,以及龐大的訓練數據庫(280000小時的音樂),其能制作出作曲特別復雜或保真度特別高的歌曲。
據了解,MusicLM不僅具備強大的輔助功能,可設定具體的樂器、地點、流派、年代、音樂家演奏水平等“參數”,從而對生成的音樂質量進行調整,還能使用計算機通常難以掌握的抽象概念編寫曲目。此外MusicLM還具有“故事模式”,可編程特定時間內的音樂風格、氛圍和節奏的轉變,例如可采用幾個按順序編寫的文本描述來創建一種“故事”的敘事旋律。
但需要注意的是,MusicLM也有生成式AI普遍面臨共同的風險,即技術不完善、素材侵權、道德爭議等。例如在要求MusicLM生成人聲時,雖然技術上可行,但結果卻可能不如人意,有時會出現歌詞意義不明的情況,并且MusicLM生成的音樂中,約有1%是直接從訓練集的歌曲中復制而來。
因此谷歌方面暫未向公眾發布MusicLM,并且該公司表示,“我們承認需要在未來開展更多工作來應對這些與音樂生成相關的風險,目前沒有發布該模型的計劃。”
權威!全面!便捷!行業人都在關注的視頻號 ——
責任編輯:房家輝
分享到:版權聲明:凡注明來源“流媒體網”的文章,版權均屬流媒體網所有,轉載需注明出處。非本站出處的文章為轉載,觀點供業內參考,不代表本站觀點。文中圖片均來源于網絡收集整理,僅供學習交流,版權歸原作者所有。如涉及侵權,請及時聯系我們刪除!關鍵詞: 輔助功能 跨越阿爾卑斯山圣伯納隘口的拿破侖 責任編輯