Sora影片場景(來源:OpenAI)
鈦媒體App獲悉,2月20日下午, 人民網旗下數據管理平台「人民數據」釋出【人民數據打造全球最大中文語意語料庫助力Sora新場景】,聲稱已打造近3億條數據的新聞、問答等語意語料庫。
這則訊息引發市場廣泛關註。隨後,人民網(603000.SH)股價漲停,漲幅達10%,最新報25.64元/股。
2月20日下午,鈦媒體App方面透過電話向有關負責人詢問更多資訊。 人民網一位與該事件有關的訊息人士向鈦媒體App獨家回應稱:「對(文章屬實)。這應該是我們在新的一年(2024年)業務主打的一些亮點與方向。」
官網顯示,人民數據管理有限公司系人民日報、人民網旗下的平台,公司致力於構建全方位的大數據營運生態系,使大數據更加便捷、高效地服務於經濟社會發展,為各行各業廣泛套用。作為新時代大數據領域中的 「國家隊」, 人民數據管理有限公司以承建國家大數據災備中心、國家應急數據中心、智慧黨建數據中心等國家大數據計畫為契機,打造安全、高效、開放、共享的國家級大數據平台,並致力於做好各級黨政機關、央國企、民企等大數據的 「存、管、用」 工作。
2月16日,美國OpenAI公司宣布推出全新的生成式人工智慧模型「Sora」。透過文本指令,Sora可以直接輸出長達60秒的視訊,並且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色,引發全球關註。
OpenAI表示,Sora是能夠理解和模擬現實世界的模型的基礎,這一能力將是實作AGI(通用人工智慧)的重要裏程碑。
人民數據在文章中表示,這是全球最大、助力Sora場景的中文語意語料庫。
文章中透露,該語意語料庫面向人工智慧大模型、通用人工智慧、智慧互聯網等套用場景。針對當前大模型普遍回答不了、回答不好卻又必須直面、不容回避的重大問題、敏感問題、疑難問題、復雜問題,梳理了1萬余個重點問題。語料庫的進一步豐富充實或將使資料尋找更加便捷,進一步降低了普通人的AI使用門檻,幫助普通人以更簡單的方式獲取更全面的資訊。
但人民數據方面沒有透露該語意語料庫的更多中文名稱以及細節等。
人民數據方面也提醒,AI 技術和套用創新,「合規」始終是底線。未來還需加強對AI大模型安全、規範、永續發展的探索,充分挖掘各類數據資源價值,以構建主流價值語料庫為抓手,推動中國AI產業安全發展。
(本文先發鈦媒體App,作者|林誌佳)