行者AI尹學淵：AI打破內容創作「不可能三角」，推動美術/音樂大模型落地「最後一公裏」｜GenAICon2024 - 科技

2024-05-08科技

智東西
作者 | GenAICon 2024

2024中國生成式AI大會於4月18-19日在北京舉行，在大會第二天的主會場AIGC套用專場上，行者AI創始人&CEO尹學淵以【生成式AI賦能智慧文娛及教育新生態】為題發表演講。

尹學淵談到內容創作領域長期存在「 不可能三角 」的問題，即 品質、成本、效率三者之間永遠無法達成平衡 。而生成式AI的出現有望打破這一僵局，為教育、文旅行業開啟了互動式、沈浸式新體驗。

行者AI在多模態領域進行了廣泛探索， 將美術大模型和音樂大模型用在實際落地的「最後一公裏」階段 。尹學淵強調了大模型與特定領域工作流程緊密結合的重要性，如果工作流程整合不當，一些看似功能強大的產品會在實際落地套用中問題頻出。

工業化AI與消費級娛樂AI的差異可以概括為三個關鍵特性： 一致性、可控性、高精度 。根據真實客戶反饋，行者AI的「行者丹爐」以及「圖刷刷」工具可將產品策劃、美術總監、原畫師、3D組、營運/美宣等工種的工作效率提升 3-5倍 。

以下為尹學淵的演講實錄：

我的原定主題為「生成式AI在文娛和教育領域的探索」，但主辦方認為這個標題過於謙遜，於是為我加上了「賦能」二字。今天我的分享將主要以案例為主，向大家展示我們是如何利用生成式AI進行創新實踐的。

首先，請允許我做個簡短的自我介紹。我自認為是一名連續創業者。2013年，我聯合創立了遊戲公司龍淵網路。2016年，我們在龍淵網路內部成立了AI實驗室。到了2020年，我們將AI實驗室的產品獨立出來，分拆成一家AI公司。

我們公司專註於AI的套用層面，多年來一直在這個領域深耕。在生成式AI的概念尚未普及之前，我們就已經開始研發 AI音樂 、 AI美術 和 AI智慧體 等產品，這些產品如今已在多個場景中得到套用。

今天我將分享的內容聚焦在文娛和教育這兩個行業。

一、生成式AI的關鍵作用，打破內容創作「不可能三角」

我們所有機會的起源都可以追溯到這張圖所展示的原理。在過去，內容創作領域存在著一個所謂的「 不可能三角 」。在這個三角中， 品質、成本和效率三者之間似乎永遠無法達到平衡 。

通常情況下，如果追求高品質的作品，那麽成本必然高昂，且創作過程緩慢。如果你想要快速獲得成本低廉的成果，那麽最終產出的內容很可能在美觀度上不盡如人意。如果你既想要高品質，又希望快速完成，那麽唯一的辦法就是增加投入。

你會發現，在生成式AI出現之前，這個「不可能三角」一直是內容創作領域的一大難題。

生成式AI的主要作用就是打破這個「不可能三角」 。現在，我們可以在保持作品品質的同時，實作快速且成本效益高的創作。

在我看來，所有的機會可以用兩個關鍵詞來概括： 多模態 和 互動式 。特別是當我們發現生成式AI技術解決了傳統內容創作的「不可能三角」問題之後，許多之前只能想象而無法實作的事情，現在已經有了實作的可能。

無論是遊戲、大視聽、智慧教育、元宇宙，這些領域都可以分解為2D、3D、聲音、語言等不同的工程化元件。隨著生成式AI的革命性進步，我們現在能夠在這些領域實作多模態和互動式的套用。至於什麽是互動式，我將透過一些案例來具體展開說明。

這個機遇的核心在於，過去在內容創作過程中，我們總是面臨著 高成本 和 低成功率 的雙重挑戰。在這種背景下，商業壓力使得大家不得不將註意力集中在 提高付費率 和 轉化率 上，很難真正從人類真善美的角度出發去設計和創造內容。無論是遊戲還是影視劇作品，最終都不得不為了快速回收成本而犧牲某些價值。 如果連成本都無法回收，那麽這種商業模式就難以為繼。

傳統的教育、醫療、宣傳和文化傳播等領域，雖然非常值得投入，但高昂的成本限制了我們的行動。而今天，AI技術的發展為我們帶來了新的機遇。這就是我想要強調的點。 透過AI技術，我們可以在保持高品質內容創作的同時，降低成本，提高成功率 ，從而為這些領域帶來更廣闊的發展空間。

二、美術、音樂大模型落地「最後一公裏」，將真實使用者平均效率提升3~5倍

行者AI在多模態領域進行了廣泛的探索和嘗試。我們的美術大模型解決了很多基礎性問題，也帶來了很多新的可能。

然而，在將這些技術套用到實際工作中的最後一步，即「 最後一公裏 」階段，我們發現 所有大模型都必須與特定行業和領域的工作流程緊密結合 。許多產品看似功能強大，但在實際套用中卻問題頻出，難以落地，這是工作流程整合不當所致。

從美術層面來說 ，我們通常會在每個環節使用不同的工具和演算法來解決問題，這些環節包括 美學設計、還原度、創意構思、使用者介面設計、圖示制作、原畫創作、3D建模以及特效和動作設計 等。

並不是說我們可以透過一個包羅永珍的大模型來解決所有問題，實際上這樣做是非常困難的。相反，我們的目標是開發出各種不同的演算法和工具，使美術從業者能夠走在AI技術的前沿，掌握並有效利用AI技術，而不是僅僅為了做出一個大模型。

工業化AI與To C的娛樂AI之間存在顯著差異，這些差異可以概括為三個關鍵特性： 一致性、可控性、高精度 。這三個特性是工業化AI作為實用工具不可或缺的要素。

首先，一致性意味著AI生成的內容保持風格和特征的統一。 在設計兩個角色張三和李四時，他們應該各自保持獨特的外觀，而不是隨機變成王五的樣子。在實際套用中，許多產品依賴於提示詞來啟動生成過程，一旦提示詞發生變化，生成的作品也會截然不同。

無論是文生圖還是文生音樂，包括最近非常流行的一些創作工具，比如音樂，使用者可能會發現，如果想要修改生成內容的一小部份，整個作品就會變成完全不同的另一首歌，美術可能因為提示詞的變化，而變成一張全新的圖，不可深度編輯細節，這在工業化套用中是不可取的。

為了解決一致性的一問題，我們采用了「 行者丹爐 」這一概念。

大家調侃AI都在「煉丹」，我們幹脆取一個名字叫「丹爐」。我們以這個比喻為基礎，創造了「丹爐」這一工具，以確保生成內容的一致性。透過這個工具，使用者可以迅速利用自己的素材、位置和數據標簽來訓練一個專屬於自己的AI模型，無論是畫風模型、人物模型、決策模型還是場景模型，都能輕松實作。

例如，如果你想訓練一個生成你個人肖像的模型，只需將你的照片輸入系統，訓練出的模型就會專門生成你的肖像，無論是站立、坐著還是躺著的姿勢；如果你想要模仿梵高的畫風，那麽生成的作品就會具有梵高的風格；如果你偏好二次元風格，那麽結果也會相應地呈現二次元特色。透過這樣的工具，我們不僅確保了一致性，還提高了 可控性 ，使得最終生成的效果能夠完全滿足使用者的具體要求。

在討論工業化AI時，除了一致性和可控性之外， 高精度 也是一個關鍵特性。

比如一張16K的超高畫質的大圖，使用Midjourney嘗試將其縮小至4K分辨率的高畫質影像可能會因為效能限制而變得不可行。同樣，自行搭建的Stable Diffusion在處理這種高分辨率影像時也可能因為視訊記憶體不足而崩潰。我們的演算法可以做到16K，使其可以拿出去做美宣、原畫。

此外，生成這樣一張圖並非一次性完成，而是一個 分階段、多模型疊加 的過程。我們不是簡單地透過輸入一個Prompt然後點選滑鼠就生成一張圖，而是透過多個模型的疊加和分批次生成，最終合成為一張完整的影像。這表明， 生成式AI必須結合具體的套用場景，並且打造與工作流程緊密結合的工具，而不是依賴一個通用大模型。

根據真實客戶反饋，使用這些工具的平均效率提升了 3~5倍 。

這並不意味著某個行業被徹底革命或替代，而是使用這些工具的行業從業者的工作效率得到了顯著提升。即使是生成一張16K的大圖，也需要經過數天的多個步驟來完成，而不是瞬間生成。

當前，許多客戶反饋稱，他們的設計師正在轉變為AI工程師，每天都在訓練他們自己的模型。每個人都希望擁有自己獨特的畫風，每家公司也都不希望自家產品的設計看起來千篇一律或被指責為抄襲。在這種情況下，人類設計師可以專註於打磨自己的風格，訓練一個專屬於自己的模型，使得AI成為他們個人化創作的助手。

這大致是我們在美術領域的套用邏輯。

在音樂領域，我們的工作重點可以概括為「 互動式 」這三個字。

互動式的核心在於 可控性 ，我們能夠實作非常精細的控制，如果某部份效果不盡如人意，可以立即進行調整。

這種互動式的方法涵蓋了AI音樂制作的多個方面，包括作詞、作曲、伴奏制作以及人聲合成。我們都為此開發了相應的工具，使得音樂創作過程不僅高效，而且可以細致調控。

以2021年世界大學運動會的宣傳歌曲為例，這首歌曲的歌詞、旋律、伴奏以及演唱部份完全由AI完成。三年前的AI音樂制作水平，已經能夠滿足常規的宣傳和商業用途的需求，並且支持精細的控制和調整。

此外，我們還開發了 AI智慧體 ，也就是遊戲中的Agent。

三、生成式AI如何改造教育和文旅？即時控制音樂創作，提供多模態互動體驗

在討論AI安全的同時，我們回到今天的主題，探討生成式AI在教育和文旅領域的套用。

在教育領域 ，尤其是在音樂教育方面，傳統的教學方法往往側重於演奏和演唱這兩個考核指標。學生通常需要演奏一首指定的曲目，相似度高則透過考核，否則需要回去繼續練習。

然而，隨著素質教育和美育教育的推廣，國家的教學大綱開始強調音樂鑒賞和音樂創作兩部份內容。音樂創作對於教學來說是一個挑戰，但有了生成式AI的幫助，我們可以快速地將其融入教學過程中，並且可以與國學文化相結合。

例如，許多唐詩宋詞原本就是吟唱的，但現代人往往不知道如何唱。利用AI，我們可以生成相應的曲調，如果覺得生成的旋律不夠理想，AI還能夠提供細粒度的調整建議，從而創造出千人千面的旋律。孩子們可以跟著這些旋律學唱，這樣既能學習音樂，又能在不知不覺中背誦古詩。

除了音樂創作，AI還可以用於教授音樂理論知識，如旋律曲線的繪制，AI可以根據使用者繪制的線條生成相應的旋律。

旋律曲線的繪制是音樂創作中的一個重要知識點，透過AI的輔助，學生可以透過簡單的點選滑鼠來體驗音樂創作的過程，並學習相關的音樂理論知識，如同頭異尾、模進等概念，同時還能進行音階和節奏的訓練。

在實際套用場景中，一些學校已經建立了美育教室，學生可以在這樣的教室中學習音樂創作和鑒賞，探索如何使音樂更加悅耳動聽。

這個系統不僅多次被央視報道，而且在全國範圍得到了推廣，包括成都、上海、北京等地區的美術教育中也都有所套用。透過這些創新的教學工具和方法，AI正在幫助教育者以更互動和沈浸式的方式進行教學，提高學習效率，同時也為學生帶來了全新的學習體驗。

什麽叫互動式？ 互動式 是指透過互動的方式進行溝通或教學，從而獲得更個人化和動態的體驗。

在AI音樂創作的例子中，互動式不僅指使用者可以即時調整和控制音樂創作的各個方面，也意味著可以透過AI生成的內容來教育和引導。例如，透過一個AI生成的小遊戲來教育小朋友如何應對校園霸淩。在這個遊戲中，孩子們可以身臨其境地體驗故事情節，學習在不同情況下如何應對和求助，這樣的互動式體驗比傳統的講授方式更加生動和有效。

與世界園藝博覽會的合作也是采用了類似的方法。透過AI技術，使用者可以快速生成一個包含世園會中上萬種植物資訊的互動體驗，每個植物都有詳細的介紹，所有的影像、角色、聲音和互動環節都是由AI生成的。

此外，AI還被用於與傳統文化的結合。例如與中國皮影戲博物館的合作案例，參觀者可以在博物館中透過網路攝影機拍攝自己的照片，AI將根據這些照片生成個人的皮影形象，並允許使用者在皮影戲的虛擬世界中進行互動。這種體驗不僅增強了對傳統文化的了解，還透過AI的即時生成技術，讓每次的體驗都是獨一無二的。

AI技術也被套用於城市特色體驗的生成，如在成都可以生成以雪山為遠景、成都模組屋為近景的文化體驗，在廣州可以生成小蠻腰，在上海市可以生成東方明珠。這些體驗都是可以互動的，而且隨著進入博物館的人數增加，皮影戲中的角色也會相應增加，從而改變了傳統的沈浸式體驗模式。

傳統的沈浸式體驗內容更新周期長，遊客體驗後可能就不會再次回訪。但透過AI技術，可以實作快速即時的內容更新，使得每次存取都有新的體驗。 AI可以生成365天都不重樣的沈浸式體驗，每天都有新的內容和互動，極大地提升了重遊價值和文化體驗的深度。

AI技術與自貢宮燈會的結合，展示了AI在多語言交流和互動娛樂方面的套用。透過使用Agent和多樣的AIGC技術，宮燈會的AI角色不僅能夠使用多國語言與觀眾進行對話，還能驅動3D模型與觀眾進行互動。這些AI角色可以根據不同的國家和地區使用相應的語言進行交流，不僅能進行對話，還能唱歌和跳舞，為觀眾提供豐富的多模態體驗。

例如，如果今天要感謝「智東西」和「智猩猩」的邀請，只需將這兩個名字輸入AI系統，AI形象便可以根據輸入進行相應的表演。

這些都是AI技術具體落地的套用場景，體現了 互動式多模態體驗 的潛力。

此外，AI技術在文旅場景中的套用也非常廣泛。在許多文旅景點，由於人多，找到一個好的拍照位置並不容易，而且晚上的燈會等場景雖然景色迷人，但拍攝人物照片時往往因為光線問題導致面部暗淡。AI寫真打卡功能可以輕松解決這一問題，它不僅能夠美化照片背景，還能提升人物形象的亮度和解析度。

AI技術還可以用於生成與植物相結合的抽象畫，這些畫作在現實中很難拍攝出來，但透過AI的生成能力，使用者可以創造出獨特的藝術效果。更進一步，如果現場有印表機，觀眾可以將這些AI生成的畫作打印出來並帶回家，極大地增強了參觀體驗。

以上是尹學淵演講內容的完整整理。