當前位置: 華文世界 > 科技

遊族網路的AI「生意經」

2024-07-12科技

本報記者 許心怡 吳可仲 上海報道

AIGC(人工智慧生成內容)浪潮洶湧,眾多內容生產商、社交平台搶灘布局。

7月6日,遊族網路(002174.SZ)CEO陳芳表示,該公司將持續進行語料庫的建設,透過自行開發與外部合作並列的方式,將優質語料在IP塑造、音視訊生成、使用者體驗提升等文化娛樂產業各業務板塊進行全面套用。

遊族網路相關人士對【中國經營報】記者表示,語料庫建設是一個系統性工程,需要精心規劃和多步驟實施。目前各家公司都在逐步開展自己的語料庫構建活動。遊族網路方面希望建立行業標準的語料收集、清洗和標註流程,並在此過程中關註保護玩家私密和數據安全,加強版權意識,尊重原創內容。

構建語料庫

「作為推動AI發展的關鍵力量,我們也將持續進行語料庫的建設。」7月6日,在2024世界人工智慧大會暨人工智慧全球治理高級別會議上,陳芳出席語料主題論壇時說道。

遊族網路方面表示,高品質語料是人工智慧突破式發展的核心因素之一,以遊戲為首的互動娛樂語料具有極高的經濟和社會價值。一是由於全球有幾十億人口活躍數據,龐大的使用者基數為優質遊戲語料的培植提供了沃土;二是遊戲涵蓋多種型別,透過不同遊戲玩家的不同反應,能為AI提供多樣化的學習材料。

遊族網路方面還介紹,在IP塑造、價值觀正向引導上,遊戲語料也占據著天然的優勢。遊戲研發人員能直觀地透過數據獲取使用者對不同IP角色的喜好程度,並進行IP要素拆解分析,針對不同群體的喜好進行IP客製。

陳芳談到,遊族網路接下來將著力構建語料庫:「(我們將)透過自行開發與外部合作並列的方式,將優質語料在IP塑造、音視訊生成、使用者體驗提升等文化娛樂產業各業務板塊進行全面套用,將優質的中國文化以更易被主動選擇的方式向世界傳遞。」

如果說大模型是引擎,語料就是推動引擎運作的「燃料」。AI模型對高品質語料需求巨大,人們需要為其供給大量的數據,保證持續訓練現有AI模型以及開發更強大的模型。

今年3月,美國社交平台Reddit在紐約證券交易所上市,開盤首日收漲48.35%。據公開數據,Reddit每日活躍使用者達到7310萬人,2023年的發帖量大約為4.69億條,評論和互動量達到28.4億條。該公司宣布與谷歌達成合作,授權其使用Reddit的數據訓練AI模型。Reddit計劃在2024年透過這種方式獲得約6640萬美元的收入。

當月,谷歌因未經授權使用出版商內容訓練聊天機器人,在法國被罰款2.5億歐元。

今年4月,德國圖片共享平台EyeEm宣布授權AI公司使用社群中的圖片用於訓練AI模型。EyeEm透過電子信件告知使用者相關條款,並向不願意將照片用於AI訓練的使用者提供30天時間刪除內容。EyeEm在與Instagram的競爭中落敗,於去年被西班牙公司Freepik收購。被收購時,EyeEm的相片圖庫包含1.6億張圖片和近15萬名使用者。

並非單純數據抓取

遊族網路相關負責人對記者表示,遊戲研發中會需要用到多種型別的語料,比如程式碼輔助、美術設計、使用者分析、在地化、內部知識庫、開發日誌、技術文件、測試文件等,還有遊戲相關的特定語料,例如角色台詞、遊戲背景、角色設定、故事大綱、世界觀等資訊。

「使用者生成內容(UGC)是大模型的主要語料來源之一。它們來自各個社群、論壇、渠道的評論區,既可以來自同型別產品,也可以來自自己產品的市場測試和營運結果。」該人士表示,網民、玩家們的表達是語料的主要來源之一。此外,語音、美術設計、音樂、視訊等也可以形成多模態語料庫,程式碼則主要來自於公司計畫工程。

盡管互聯網上有著海量數據,但是符合大模型訓練的卻有一定標準。

上述人士介紹,對於遊戲研發來說,高品質的語料應具備覆蓋性、準確性、多樣性:語料應涵蓋遊戲相關的各個方面,包括但不限於遊戲劇情、角色對話、使用者評論、遊戲指南、策略討論;這些語料應正確傳遞資訊,避免錯誤資訊誤導AI訓練效果;多樣性則是指語料能覆蓋多種型別的遊戲種類,以及不同風格和體裁的文本,來訓練AI的通用性和適應力。

他補充道,在地化、互動性、情感豐富性的高品質語料應能表達豐富的情感和語氣,使AI能夠理解和生成具有情感色彩的文本,增強遊戲的沈浸感。

「當前語料的覆蓋性、準確度、時效性是否符合要求,取決於以下幾個因素:數據收集的廣度和深度、數據是否經過清洗和預處理、數據更新頻率、版權是否合規。目前在這些方面,語料品質依然存在很大上升空間。」遊族網路相關負責人表示。

語料庫的構建也並非單純的數據抓取。該負責人告訴記者:「語料庫建設是一個系統性工程,需要精心規劃和多步驟實施,包括需求分析、數據收集、版權審查、數據清洗、數據標註、數據增強、構建知識庫、技術選型、模型訓練與測試、持續更新與維護等。」

他表示,目前各家公司都在逐步開展自己的語料庫構建活動。遊族網路方面認為,構建語料庫,首先要設立標準化流程。遊族網路方面希望建立行業標準的語料收集、清洗和標註流程,提高語料庫建設的效率和品質,「而不是各家搭建,這樣才能更快實作更符合遊戲行業垂向的語料庫」。

上述人士還表示,數據安全也很重要,收集數據過程中需要保護玩家私密和數據安全,遵守相關法律法規的同時,加強版權意識,確保語料庫建設過程中尊重原創內容。

打磨AI之劍

7月1日,遊族網路方面透露,其與火山引擎達成合作。具體合作內容包括:將火山引擎在雲端運算、大數據、資料庫等方向的技術優勢,與遊族網路在遊戲運維領域的經驗結合,完成大數據存算分離、數據湖架構、高可靠資料庫等架構和技術上的升級叠代。

此外,遊族網路和火山引擎將以雲端運算和AI大模型技術為底座,依托火山引擎的豆包大模型,為玩家提供更加沈浸式的AI互動體驗。

在上述論壇上,陳芳介紹了遊族網路在AI算力、AI軟硬體基建、AI在產業層面套用、人才培養、行業責任等方面的布局。例如,在AI軟硬體基礎設施方面,遊族網路參與了由上海自主智慧無人系統科學中心發起的「自主智慧無人系統大模型計劃」,重點推動人工智慧在各方面的場景套用,為「數智化虛實融合」提供了技術支撐。

據遊族網路方面介紹,其在2017年開始布局AI技術,於去年6月成立AI創新院,目前已經將AI技術運用於研發和發行環節。

關於在遊戲發行環節對AI技術的參照,遊族網路方面向記者介紹:「由AI創新院研發的廣告投放引擎,在自研大數據平台的支持下,利用AI驅動沈澱優質廣告投放策略,提高素材歸因能力和定向能力,以確保最佳的廣告投放效果;同時,借助AIGC快速進行美術風格的叠代嘗試,透過廣告投放效果及時了解使用者偏好,我們進一步提升了獲客能力。」

據遊族網路2023年財報披露,在遊戲研發環節,其將AI套用於美術資產生產、在地化多語言版本制作、數據查詢、品質管理、NPC(非玩家角色)等多個領域,其中AI自有渲染管線能同時支持前向渲染管線和延遲渲染管線,可以大幅提升遊戲品質,目前已經接入【少年西遊記2】【Vice Nation】【少年三國誌3】等計畫;在基礎架構保障方面,目前AI創新院已支持200多個平台計畫的運維工作。

今年6月,遊族網路推出AI玩伴「代號小遊醬」。據遊族網路方面介紹,「代號小遊醬」是其面向玩家的首款AI產品,可以為玩家提供客服答疑和遊戲攻略,還能在陪玩與傾聽中提供豐富的情緒價值,並兼顧養成與輔助等系列陪伴,可以支持個人化客製。

遊族網路方面表示,未來將讓AI不僅服務於遊戲生產環節,更服務於玩家的遊戲樂趣,使AI更好玩。

(編輯:董曙光 稽核:吳可仲 校對:顏京寧)