在Sora引爆視訊生成時，Meta開始用Agent剪視訊了，華人作者主導

2024-02-20科技

機器之心報道

編輯：杜偉、小舟

未來，視訊剪輯可能也會像視訊生成領域一樣迎來 AI 自動化操作的大爆發。

這幾天，AI 視訊領域異常地熱鬧，其中 OpenAI 推出的視訊生成大模型 Sora 更是火出了圈。而在視訊剪輯領域，AI 尤其是大模型賦能的 Agent 也開始大顯身手。

隨著自然語言被用來處理與視訊剪輯相關的任務，使用者可以直接傳達自己的意圖，從而不需要手動操作。但目前來看，大多數視訊剪輯工具仍然嚴重依賴手動操作，並且往往缺乏客製化的上下文幫助。因此，使用者只能自己處理復雜的視訊剪輯問題。

關鍵在於如何設計一個可以充當協作者、並在剪輯過程中不斷協助使用者的視訊剪輯工具？在本文中，來自多倫多大學、 Meta（Reality Labs Research）、加州大學聖地牙哥分校的研究者提出利用大語言模型（LLM）的多功能語言能力來進行視訊剪輯，並探討了未來的視訊剪輯範式，從而減少與手動視訊剪輯過程的阻礙。

論文標題：LAVE: LLM-Powered Agent Assistance and Language Augmentation for Video Editing

論文地址：https://arxiv.org/pdf/2402.10294.pdf

具體而言，研究者推出了視訊剪輯工具 LAVE，它具備了一系列由 LLM 提供的語言增強功能。LAVE 引入了一個基於 LLM 的規劃和執行智慧體，該智慧體可以解釋使用者的自由格式語言命令、進行規劃和執行相關操作以實作使用者剪輯目標。智慧體可以提供概念化幫助（如創意頭腦風暴和視訊素材概覽）和操作幫助（包括基於語意的視訊檢索、故事板和剪輯修剪）。

為了使這些智慧體的操作順利進行，LAVE 使用視覺語言模型（VLM）自動生成視訊視覺效果的語言描述。這些視覺敘述使 LLM 能夠理解視訊內容，並利用它們的語言能力協助使用者完成剪輯。此外，LAVE 提供了兩種互動視訊剪輯模式，即智慧體協助和直接操作。雙重模式為使用者提供了靈活性，並允許他們按需改進智慧體操作。

至於 LAVE 的剪輯效果怎麽樣？研究者對包括剪輯新手和老手在內的 8 名參與者進行了使用者研究，結果表明，參與者可以使用 LAVE 制作出令人滿意的 AI 協作視訊。

值得關註的是，這項研究的六位作者中有 5 位華人，包括一作、多倫多大學電腦科學博士生 Bryan Wang、Meta 研究科學家 Yuliang Li、Zhaoyang Lv 和 Yan Xu、加州大學聖地牙哥分校助理教授 Haijun Xia。

LAVE 使用者介面（UI）

我們首先來看 LAVE 的系統設計，具體如下圖 1 所示。

LAVE 的使用者介面包含三個主要元件，分別如下：

語言增強視訊庫，顯示帶有自動生成的語言描述的視訊片段；

視訊剪輯時間軸，包括用於剪輯的主時間軸；

視訊剪輯智慧體，使使用者與一個會話智慧體進行互動並獲得幫助。

設計邏輯是這樣的：當使用者與智慧體互動時，訊息交換會在聊天 UI 中顯示。當進行相關操作時，智慧體對視訊庫和剪輯時間軸進行更改。此外，使用者可以使用光標直接對視訊庫和時間軸進行操作，類似於傳統的剪輯界面。

語言增強視訊庫

語言增強視訊庫的功能如下圖 3 所示。

與傳統工具一樣，該功能允許剪輯播放，但會提供視覺敘述，即為每個視訊自動生成文本描述，包括語意標題和摘要。這些標題可以幫助理解和索引剪輯，摘要則提供了每個剪輯的視覺內容的概述，幫助使用者形成自身編輯計畫的故事情節。每個視訊下方都會顯示標題和時長。

此外，LAVE 使使用者可以利用語意語言查詢來搜尋視訊，檢索到的視訊會在視訊庫中顯示並按相關性排序。這一功能必須透過剪輯智慧體來執行。

視訊剪輯時間軸

從視訊庫中選定視訊並將它添加到剪輯時間軸後，它們會顯示在界面底部的視訊剪輯時間軸上，如下圖 2 所示。其中，時間軸上的每個剪輯都由一個框表示，並顯示三個縮圖幀，分別是開始幀、中間幀和結束幀。

在 LAVE 系統中，每個縮圖幀代表剪輯中一秒鐘的素材。與視訊庫一樣，每個剪輯的標題和描述都會提供。LAVE 中的剪輯時間軸具有兩個關鍵功能，即剪輯排序和修剪。

其中在時間軸上進行剪輯排序是視訊剪輯中的一項常見任務，對於建立連貫的敘述非常重要。LAVE 支持兩種排序方法，一是基於 LLM 的排序利用視訊剪輯智慧體的故事板功能進行操作，二是手動排序透過使用者直接操作來排序，拖放每個視訊框來設定剪輯出現的順序。

修剪在視訊剪輯中也很重要，可以突出顯示關鍵片段並刪除多余內容。在修剪時，使用者雙擊時間軸中的剪輯，開啟一個顯示一秒幀的彈出視窗，如下圖 4 所示。

視訊剪輯智慧體

LAVE 的視訊剪輯智慧體是一個基於聊天的元件，可促進使用者和基於 LLM 的智慧體之間的互動。與命令列工具不同，使用者可以使用自由格式的語言與智慧體進行互動。該智慧體利用 LLM 的語言智慧提供視訊剪輯輔助，並提供具體的響應，以在整個編輯過程中指導和幫助使用者。LAVE 的智慧體協助功能是透過智慧體操作提供的，每個智慧體操作都涉及執行系統支持的編輯功能。

總的來說，LAVE 提供的功能涵蓋了從構思和預先規劃到實際編輯操作的整個工作流程，但該系統並沒有強制規定嚴格的工作流程。使用者可以靈活地利用與其編輯目標相符的功能子集。例如，具有清晰編輯願景和明確故事情節的使用者可能會繞過構思階段並直接投入編輯。

後端系統

該研究采用 OpenAI 的 GPT-4 來闡述 LAVE 後端系統的設計，主要包括智慧體設計、實作由 LLM 驅動的編輯功能兩個方面。

智慧體設計

該研究利用 LLM（即 GPT-4）的多種語言能力（包括推理、規劃和講故事）構建了 LAVE 智慧體。

LAVE 智慧體有兩種狀態：規劃和執行。這種設定有兩個主要好處：

允許使用者設定包含多個操作的高級目標，從而無需像傳統命令列工具那樣詳細說明每個單獨的操作。

在執行之前，智慧體會將規劃呈現給使用者，提供修改的機會並確保使用者可以完全控制智慧體的操作。研究團隊設計了一個後端 pipeline 來完成規劃和執行流程。

如下圖 6 所示，該 pipeline 首先根據使用者輸入建立行動規劃。然後，該規劃從文本描述轉換為函式呼叫，隨後執行相應的函式。

實作 LLM 驅動的編輯功能

為了幫助使用者完成視訊編輯任務，LAVE 主要支持五種由 LLM 驅動的功能，包括：

素材概述

創意頭腦風暴

視訊檢索

故事板

剪輯修剪

其中前四個可透過智慧體來存取（圖 5），而剪輯修剪功能可透過雙擊時間軸中的剪輯，開啟一個顯示一秒幀的彈出視窗（圖 4）。

其中，基於語言的視訊檢索是透過向量儲存資料庫實作的，其余的則透過 LLM 提示工程（prompt engineering）來實作。所有功能都建立在自動生成的原始素材語言描述之上，包括視訊庫中每個剪輯的標題和摘要（圖 3）。研究團隊將這些視訊的文字描述稱為視覺敘述（visual narration）。

感興趣的讀者可以閱讀論文原文，了解更多研究內容。