當前位置: 華文世界 > 科技

昆侖萬維追趕Suno,大模型「爆改」音樂圈還差幾步

2024-04-02科技

AI的風還是吹到了音樂圈。繼「AI作曲家」Suno引爆討論之後,昆侖萬維成為國內第一家在音樂領域跟上的企業。4月2日,昆侖萬維AI音樂生成大模型「天工SkyMusic」開啟邀測,並計劃在4月17日隨「天工3.0」面向全社會免費開放。

從「AI孫燕姿」到「人人都是音樂制作人」,大模型用一次次升級展現了爆改音樂行業的實力。但或許就像網易CEO丁磊說過的,至少在音樂領域,人工智能永遠無法真正取代人。

「非主流」入局

4月2日,昆侖萬維放出了9首由「天工SkyMusic」生成的作品,時長在10秒到51秒之間,涵蓋說唱、古風等多種風格。

昆侖萬維介紹,「天工SkyMusic」具有五大特點,包括高質素AI音樂、人聲「以假亂真」、歌詞段落控制、多種音樂風格和音樂智能表達-歌唱技巧學習。

例如「天工SkyMusic」能夠生成80秒44100Hz取樣率雙聲道立體聲AI歌曲,AI人聲合成能夠達到業內頂尖的SOTA水平等。

在技術底座方面,昆侖萬維介紹稱,「天工SkyMusic」采用音樂音訊領域類Sora模型架構,Large-scale Transformer負責譜曲,來學習Music Patches的上下文依賴關系,同時完成音樂可控性;Diffusion Transformer負責演唱,透過LDM讓Music Patches被還原成高質素音訊。

在人工智能領域,昆侖萬維有點「非主流」。公開資料顯示,昆侖萬維以頁遊研發和全球發行業務起家,此後透過頻繁收購轉型成為一家互聯網平台型企業。

2023年4月,昆侖萬維釋出2022年年報。數據顯示,報告期內公司營收凈利雙雙下滑,實作營業收入47.36億元,同比下滑2.35%,歸母凈利潤為11.52億元,同比下降25.49%。據悉,論盈利規模,這是昆侖萬維2019年以來最差的財報。

但2023年,伴隨著OpenAI推出ChatGPT,人工智能新一輪浪潮襲來,昆侖萬維也有了新的轉型方向。也是在2023年4月,昆侖萬維釋出千億級大語言模型「天工」,2022年年報釋出後,昆侖萬維又明確了「All in AGI與AIGC」的發展路徑。

今年1月5日,昆侖萬維公布公司的全新使命:實作通用人工智能,讓每個人更好地塑造和表達自我。4月1日,昆侖萬維宣布,4月17日,在「天工」大模型一周年之際,「天工3.0」將正式開啟公測。

但昆侖萬維的人工智能轉型路徑也曾受過非議。據悉,2023年3月,昆侖萬維曾在互動易平台回復了大量關於公司AIGC業務的內容,因回復投資者咨詢時未能客觀、完整地介紹和反映公司相關業務的實際情況,公司還曾收到監管的關註函和監管函。

2023年6月,昆侖萬維再收深交所關註函,要求說明打造全球領先的AGI平台的可行性、是否存在迎合熱點炒作股價的情形等。

AI闖進音樂圈

對於「天工SkyMusic」,昆侖萬維稱,其基於昆侖萬維「天工3.0」超級大模型打造,「是目前國內唯一公開可用的AI音樂生成大模型」。

不久前,美國人工智能初創企業Suno釋出的Suno模型V3版本躥紅,使用者只需輸入幾句歌詞或者歌名,並自選音樂風格,便可得到兩首時長在兩分鐘內的歌曲。據悉,Suno V3呼叫的是OpenAI的ChatGPT生成歌詞及標題。

這種「傻瓜式」的操作以及效果還不錯的輸出歌曲,讓Suno一經推出便被冠以「音樂界ChatGPT」的稱號。當時,一首名為【水調歌頭(明月幾時有)】的歌曲就已引起不少關註,而此次昆侖萬維展示的歌曲片段中,也有一首同題歌曲【水調歌頭】,時長43秒。

Suno之前,上一個在AI生成音訊領域引發廣泛關註的是「AI孫燕姿」事件。公開資訊顯示,支撐「AI歌手」的主要是「SO-VITS-SVC」模型,該模型需要海量的訓練數據,並高度依賴人們對語料數據的文本標記,套用門檻很高。

「‘AI歌手’更像是語音複制,而Suno則是生成歌詞,匹配音樂和人聲,但這些曲目都是隨機的,也註定了它的不可控性。」在接受北京商報記者采訪時,「蓋總AI」營運者沈觀楷如此說道。

從時間線上看,相較於AI在生成文本、影像和影片的套用,AI生成音樂領域的發展似乎相對落後。Suno聯合創始人Shulman曾解釋稱,音訊不像文字那樣是離散的形態,聲音是一串波型的連續訊號,高質素音訊的取樣率通常為44khz或48Khz,這意味著每秒48000個token。

沈觀楷曾接到過音樂制作人在「AI扒譜」方面的需求,但沈觀楷也發現,AI對於音訊處理的能力並沒有那麽優秀。

天使投資人、資深人工智能專家郭濤也對北京商報記者提到,音訊數據的處理要復雜得多,因為它涉及到時間序列的建模以及聲音的波形、頻率、節奏等多種內容的綜合處理。

「此外,音訊生成模型需要能夠捕捉到音樂的創造性和情感表達,這在技術上是一個更高的要求」,郭濤稱。

沈觀楷也提到,音樂創作更多靠的是一種感覺,讓AI學習創作,首先要把「感覺」轉換為機器聽得懂的語言,這個過程就需要懂音樂與懂AI的人進行專業的配合,也自然有一定的難度。

真顛覆還早

昆侖萬維要在音樂大模型上搶先卡位,瞄準的是市場前景。2023年10月,丁磊就曾提到,人工智能在未來1-2年內大概率會成為音樂行業的標配。

上個月,網易釋出2023年四季度及全年財報。從業務板塊看,網易雲音樂年營收79億元,首次實作年度扭虧為盈。財報後的電話會議上,丁磊稱,網易正積極準備迎接這一輪AI技術浪潮,特別是在遊戲、音樂等領域。

北京市社會科學院副研究員王鵬對北京商報記者提到,文生音訊有望在多個領域實作廣泛套用,如音樂創作、語音合成、虛擬角色、遊戲音效等。此外,隨著人們對於個人化音訊內容的需求不斷增長,文生音訊技術也能夠滿足這一需求,提供客製化的音訊體驗。

掌如研究院院長何基永也對北京商報記者提到,在教育、娛樂、廣告、醫療等領域,音訊生成技術都有著廣泛的套用前景。

但從產業發展角度,AI生成音樂或許也有要邁過的障礙,版權就是其中之一。對於訓練數據來源以及版權風險方面的問題,北京商報記者分別聯系了昆侖萬維和Suno,但截至發稿未收到回復。

知名戰略定位專家、福建華策品牌定位咨詢創始人詹軍豪對北京商報記者提到,與傳統的人類創作不同,AI生成的音訊作品涉及到技術的參與和數據的使用,因此需要更加謹慎地處理版權問題。

此外,詹軍豪稱,在技術成熟度、數據私密、道德和倫理等方面,AI生成音樂也會面臨相應的問題,比如作品可能會引發關於創作主體、作品歸屬和道德責任的討論,需要制定相應的法規和倫理準則來規範其發展。

傳播星球App聯合創始人由曦也提到,AI生成的音訊作品如何界定版權歸屬尚無明確法律規定。

至於音樂人,或許並不需要太擔心來自AI的沖擊。沈觀楷稱,在音樂創作領域,作詞相對來說並不難,真正難的是給詞配曲。

但他接觸過的一些音樂制作人曾提到,AI的聲音比較怪異,編曲的跳躍性也比較強,「就像是剛推出時候的Midjourney,生成的隨機性很強,即便外行人看起來像模像樣,有點新奇,但其實並沒有真正的實用性」。

談及AI生成音樂,一位原創作詞的說唱愛好者只用了兩個字,「難評」。

他對北京商報記者說:「旋律太平,詞看著還行,但沒有作者的真情實感就沒有意義」,「用AI寫詞還不如不寫」。

北京商報記者 楊月涵