當前位置: 華文世界 > 科技

Meta 推出 V-JEPA 模型,利用 AI 高效補充視訊受遮蔽部份

2024-02-17科技

IT之家 2 月 17 日訊息,Meta 首席 AI 科學家 Yann LeCun 在 2022 年推出了 JEPA(Joint Embedding Predictive Architectures)模型架構,次年基於 JEPA 架構開發了一款「I-JEPA」圖片預測模型,目前又推出了一款名為「V-JEPA」的視訊預測模型。

據介紹,相關 JEPA 架構及 I-JEPA / V-JPA 模型主打「預測能力」,號稱可以以「人類理解」的方式,利用抽象性高效預測生成圖片 / 視訊中被遮蔽的部份。

IT之家註意到,研究人員使用一系列經過遮蔽處理的特定視訊訓練 I-JEPA / V-JEPA 模型,研究人員要求模型利用「抽象方式」填充視訊中缺失的內容,從而讓模型在填充間學習場景,進一步預測未來的事件或動作,進而達到對世界更深層次的理解。

▲ 圖源 Meta 官方新聞稿(下同)

研究人員表示,這種訓練方法能夠讓模型專註於影片的高層次概念,而「不會鉆牛角尖處理下遊任務不重要的細節」,研究人員舉例「人類觀看內含樹木的影片時,不會特別關心樹葉的運動方式」,因此采用這種抽象概念的模型,相對於業界競品效率更佳。

研究人員同時提到,V-JEPA 采用一種名為「Frozen Evaluations」的設計結構,即「模型在預訓練之後,核心部份不會再改變」,因此只需要在模型之上添加小型專門層即可適應新任務,具有更高普適性。