AI原生工作流：定義下一代專業創作工具

2024-02-14科技

今天，我將解讀a16z的研究報告「 專業消費者的未來：AI原生工作流的興起 」。

在當今的工作環境中，很少有人真正喜歡他們用來完成任務的軟體。從投影片制作到視訊編輯，再到照片增強，現有的工具都是幾十年前構思的， 無論是功能上的僵化還是學習曲線的陡峭，都讓使用者感到不便 （Adobe InDesign就是一個例子）。

然而，生成性AI的出現為創業者提供了徹底重塑工作流程的機會，它預示著一批全新的AI原生公司的誕生。這些公司將利用當下的技術，圍繞AI獨有的生成、編輯和組合能力構建產品。

AI原生平台將提升使用者與軟體的互動水平，使使用者能夠將低技能任務委托給AI助手，從而更多地專註於高層次的思考。 這不僅適用於傳統的辦公室工作者，也包括小企業主、自由職業者、創作者和藝術家，他們對時間的需求可能更為復雜。

更進一步，AI還將使使用者解鎖全新的技能集，無論是技術層面還是審美層面。 我們已經見證了Midjourney和ChatGPT的程式碼直譯器等產品的出現，現在 每個人都可以成為程式設計師、制作人、設計師或音樂家，縮小了創意與技藝之間的鴻溝 。有了專業級而又面向消費者的產品，配備AI驅動的工作流，每個人都可以成為新一代「專業消費者」的一部份。本文將著重展示當今及未來最成功的生成性AI原生工作流的特點，並對這些產品的演變進行假設。

AI原生專業消費者產品的面貌

AI原生專業消費者產品將徹底改變我們與工作工具的互動方式。 這些產品的核心特征在於，將前沿的模型轉化為既易於存取又高效的使用者介面（UI）。 盡管技術的飛躍令人贊嘆，但成功的產品仍需從深入理解使用者及其痛點出發，關註 能夠透過AI抽象化處理的環節、需要審批的關鍵「決策點」、以及最高杠桿點 在哪裏。

消除「空白頁」問題的生成工具將成為此類產品的關鍵特性之一。 從自然語言提示轉換為媒體輸出（如影像、視訊和文本生成器）是最早也是最明顯的消費者AI套用案例，這在專業消費者產品中也同樣適用。例如，Vizcom的渲染工具允許使用者輸入文本提示、草圖或3D模型，即刻獲得可進一步叠代的逼真渲染圖。

一鍵生成網站工具Durable’s website builder也是如此。

多模態和多媒體的組合是創意計畫所需超過一種內容型別的表現形式。 例如， 結合影像與文本、音樂與視訊或動畫與配音 。目前尚不存在一個能生成所有這些資產型別的模型，這為允許使用者在一個地方生成、細化和拼接不同內容型別的工作流產品創造了機會。HeyGen的虛擬形象產品便是一個例子，該公司將自己的虛擬形象和唇語模型與ElevenLabs的文本到語音API結合，建立出逼真的、會說話的視訊虛擬形象。

智慧編輯器則使叠代成為可能。 幾乎沒有任何工作產品是「一擊即中」的，特別是在使用AI時，每次生成都有固有的隨機性。Midjourney的變體和縮放工具就是一個很好的例子，它允許使用者在不完全從頭開始的情況下，對現有輸出進行細化。

在AI視訊領域，Pika也有類似的功能，選中特定區域進行編輯。

平台內細化是智慧編輯的另一個關鍵元素 ，最終的打磨工作往往是創造好與創造佳之間的差異所在。 AI工作流產品可以幫助使用者辨識可以改進的地方，並自動進行這些改進 ，如Krea平台提供的一站式影像或設計生成與增強功能，幫助使用者更接近最終產品。

ElevenLab’s也是一個很好的例子，可以針對某些段落進行調整。

輸出內容的可混合性和可轉換性。 AI使得內容具有獨特的靈活性——每一片內容都是另一次叠代的潛在「起點」。Gamma的釋出平台就是一個核心特性，允許使用者從提示或上傳的檔生成投影片、文件或網頁，並在需要時更改格式。

產品允許使用者展示他們的工作流程供他人叠代。 這可能是一系列提示或模型組合，或者簡單地為那些技術知識較少的使用者提供一個「復制」按鈕，以模仿某種輸出或美學風格。Imagen AI就是這樣一個例子，可以在每位攝影師個人風格的基礎上訓練模型，使他們能夠更輕松地批次編輯。然而，使用者也可以選擇按行業領先攝影師的風格進行編輯，這些攝影師已在平台上公開了他們的檔案。

專業消費者AI產品的演進之路

下一代專業消費者工具的發展仍處於初期階段，盡管現有工具在生成核心資產方面的能力已經足夠強大以至於能夠增加有意義的工作流程，但 大多數產品仍然只專註於一種內容型別，並且在功能上相當有限 。 未來幾個月，我們希望看到以下幾個方面的發展 ：

整合不同內容模式的編輯工具。 以視訊為例，使用AI建立一部短片目前需要在像Pika或Runway這樣的平台生成多個剪輯，然後將它們轉移到Capcut或Kapwing等其他平台進行編輯或混音（或添加在別處生成的聲音）。如果你能在一個平台上完成這個過程的每一步會怎樣？我們預計，新一代的產品將能夠增加更多的工作流程功能，並擴充套件到其他型別的內容生成，這可能透過訓練自己的模型、利用開源模型或與其他參與者合作來實作。我們也可能看到一個新的獨立的AI原生編輯器出現，使使用者能夠「插入」不同的模型。

利用不同互動模式的產品。 文本提示並不總是與AI產品通訊的最有效方式。我們相信，你應該能夠像與人類頭腦風暴夥伴合作一樣，使用生成工具，無論是透過語音、草圖還是分享靈感照片。我們對語音作為一種模式感到特別興奮，它允許使用者分享更復雜和精細的想法（或以文本不可能的方式閑聊）。已經開始出現這樣的產品，例如Oasis、TalkNotes和AudioPen，它們能夠將語音筆記轉換為電子信件、部落格貼文或推文。我們預計， 許多更多的工作流產品將采用音訊乃至視訊作為輸入源，改變使用者完成工作的方式和時間 。

將人類和AI生成的內容視為平等公民的產品。 我們希望看到的工具能夠讓你並排工作， 同時處理AI和人類生成的內容 。目前大多數產品都集中在其中一種上。例如，它們擅長增強真實照片，但對AI影像無能為力；或者它們可以生成新視訊，但不能增強或重新風格化來自你iPhone的剪輯。未來，我們預計 大多數專業內容制作者將使用AI和人類生成的內容混合 。他們使用的產品應該歡迎這兩種型別的內容，甚至使它們更容易結合起來。Runway的編輯工具就是一個例子，你可以將來自公司生成模型的剪輯和影像拉進來，並上傳真實資產在同一時間線上使用。然後，你可以使用公司的「魔法工具」，如補漏和綠幕，對這兩種型別的內容進行操作。

專註於內容工作流的產品只是專業消費者軟體未來的一個重要組成部份。生產力工具在AI時代同樣適合重新發明。

如果你覺得這篇文章對你有所幫助，歡迎點贊、收藏以及轉發分享。同時，請關註我，以獲取更多關於人工智慧的最新資訊和見解！