OpenAI視訊模型「秒殺」一眾模型，AI創業是否難逃大廠降維碾壓！

2024-02-17科技

中國春節期間， OpenAI再次推出了另一個讓人意想不到的產品，它的第一個文字生成模式—— Sora，也就是 Sora。

Sora的特效已經在業內掀起了軒然大波，它不僅可以透過文字來營造逼真的畫面，還可以制作出60秒的視訊。許多人都在期待著新的 OpenAI，就像是在等待著賈伯斯的到來，因為他們總是能看到一些出人意料的科技。

從 Chat GPT，到E3，再到 Sora, OpenAI的獨特之處，可以用兩個字概括：「技術的想象」和「工程」，遠遠超過了「黑科技」。與此同時，那些曾經紅極一時的 AI視訊初創公司，也都被打得落花流水，最多也就是4秒，根本無法和 Sora的60秒相比。就像 OpenAI、谷歌這樣的大公司，「地球上一天的時間，人工智慧就已經發展了上千年」，分分鐘就能把人工智慧公司給幹趴下。這也讓人忍不住感慨， AI創業就是這麽困難，什麽技術護城河，產品護城河，都還在嗎？會不會一夜之間就被大廠飛速發展的技術推翻？

一、想象與工程的爆炸，讓產生式視訊的發展趨於成熟

在 Sora之前，我們所見的很多有聲視訊技術都還沒有達到技術融合，其主要的技術途徑就是用不同的方法讓一幅畫面「動」起來，就像是靜止的動畫一樣。從使用者的實際需要來看：視訊中各個畫面間的連貫和自然是最重要的，即各個畫面間的語意資訊能夠無縫連線。

從 Sora在行業內引起的熱議就可以看得出來，根據需求來開發相應的技術解決方案或產品，要比從技術可實作的角度來開發產品要好得多。

現在讓 OpenAI釋出關於 Sora的所有技術細節是不切實際的，所以開放原始碼將會交給其它的團隊。但在 OpenAI的官方說明中， Sora和其他的文思視訊不同，它可以同時預測多個場景，同時保證視訊的主體不會發生變化。

從技術創新上來說， Sora的技術與方法並不算太過驚世駭俗，也不能算是從無到有的創新，雖然也有類似的研究，但總體來說，計畫還是很成功的。這就是 Sora很有創意的地方，他們在畫面上做出了突破，將視訊的數量限制在了最大。

這和文生的錄像技術難以集中，計畫難以實施有很大的關系。將 Transformer技術引入到文本傳播模型中，使其具有更高的套用價值。這也就意味著，到了2024年， Transformer+ Diffusion模型，才會真正的合二為一。這也是為什麽 Sora一上線就得到了很多人的認可，因為它的文字模型具有很強的一致性和可伸縮性，能夠從多個層面提高使用者對文生視訊的感知能力，從而使其更靠近商業奇異點。

OpenAI已在 Chat GPT、DALLE-3等計畫上取得了重大突破，此次又將上述研究成果進行了整合，使其具備了最大的工程效能。

二、好萊塢風格的商業電影，正在向普通人靠攏

盡管在2023年及之前，盡管有 Runway、 PiKa等現象級產品湧現，但整體上，將傳播模式與語言模式結合起來的研究尚未成為業界的「重中之重」。

在不久的將來，伴隨著文字視訊的普及，制作視訊的門檻也會越來越低，這將有助於我們進行更多的工程實踐，達到好萊塢水平的視訊解決方案。

特別地，在以往的視訊制作前期設計、中期拍攝、後期制作的過程中，逐漸地將重心轉移到了後期制作上，特別是新的視訊元素的持續生成，使得前期設計與中期拍攝的工作流發生了很大的改變，出現了新的工具和工作流程。

最後，將會被運用到各種 C端的消費場景中，例如商品廣告、劇情片等。特別是在視覺藝術，設計師，電影制作等領域，它能為這一領域的從業者提供一種快速的建模與視覺化的方法，從而節約大量的時間與費用。

這一點，給短視訊產業提供了很大的想象力，一般人或許不能用 Sora拍出好萊塢的大片，但60秒鐘的高品質短片，卻是唾手可得。特別是那些對內容邏輯要求較低，對科幻題材的探索，能幫助創作出個人化的內容。三、與其指望 Sora，還不如期待 AI視訊編輯軟體的流行

OpenAI更多的是充當先鋒，擅長開山辟路，而不是將註意力放在其他方面。

在單一產品上取得了突破性進展， Sora是一個裏程碑。但考慮到商業需要以及混剪輯工作流程的提高， Sora自身的價值仍然存在爭議。

一個60秒鐘的視訊，想要成為下一個董宇輝和李佳琪，那是不可能的，而且，這也是一件非常困難的事情，畢竟，他們還需要很長的一段時間。

就拿短視訊來說，是一遍又一遍地修改提示語，還是用視訊編輯軟體來調整素材？

很明顯，我們對 Sora，或者說，希望能盡快地更新和添加人工智慧工具的視訊剪輯軟體，以實作真正的商業效率提高。另外，基於文本提示的視訊自動生成也面臨著理解上的偏差，這個問題不但困擾著文心，而且在套用 ChatGPT時也沒有得到很好的解決。

就算 Sora完全開放，一般人想要制作出和這次演示一樣的 demo，也是一件非常困難的事情。最後， Sora能否被廣泛使用，取決於它自身能否提高人們的生產力。

這究竟是一場買方秀，還是一場賣方秀，尚需時日方能見分曉。

四、視訊制作行業，其它公司是否無勝算？

答案是否定的。

各大科技公司，都在不斷地投入到人工智慧的研究中。

Meta幾乎是在同一時間推出了V-JEPA，這使得他們無需經過調整就能適用於一系列要求世界性的任務。另外，V-JEPA演算法是基於特征空間的自主學習，具有更高的學習效率。究竟哪個方向才是最後的萬能人工智慧，現在還不清楚。

谷歌也於同期釋出了其 Gemini1.5，該1.5能夠支持10,000個 token的上下文，從而使大型模式的輸出更為一致和實用。多模融合的更順暢，與 OpenAI的工程設計不相上下。

像 Runway、 Pika這樣的純文字類產品，在人工智慧的時代，也是有一席之地的。Sora采用了 Transformer+ Diffusion兩種模式，從模型結構上來說，如果按照 Transformer作為標準，還是以【Transformer】為標準，那麽還是以【Diffusion】為核心，前者的可能性更大。

沒有讓人望塵莫及的技術，只有不斷攀升的工業熱潮。

Sora雖然一次就能制作出數十秒長的視訊，但在實際使用中，如果不能保證使用者可以透過微操作將其融入到自己的工作流中， Sora的影響力很可能會隨著時間的推移而逐漸消失。

即便是在 ChatGPT釋出一年之後，仍有相當數量的使用者不會用它。這也給開源社群制造了一個追趕的視窗，而文生文和文生視訊模式的模組化結合，會不會出現像 iPhone這樣的私有智慧裝置？這樣就可以讓更多的使用者使用這款軟體，從而形成一種開放的、小型的、小型的模型+移動的模式，給整個智慧型手機帶來一場革命。

新的產品總是不斷地湧現出來，技術的傳播也只是剛剛起步，沒有哪一家企業會因為一項新技術的問世而「猝死」。

五、人工智慧大爆發，平民也能成為「領航員」

對於一般人來說，能不被「遙遙領先」、「王炸」這樣的字眼洗腦，就已經很不容易了，更別說保持理智了。在 Sora病毒肆虐的這段時間裏，一般人需要做三件事。

1.將其套用於您所熟知的方案

與焦慮相反的是特殊性。只有透過 Sora這樣的人工智慧技術，將其套用到實際的工作中，我們才能真正感受到，人工智慧將會在多大程度上代替我們的工作。也是為了讓我們更好的了解到，人工智慧是如何套用到我們的問題中來的。對新技術、新套用，初期使用者最大的好處，就是能將其價值提前挖掘出來，從而提升生產力與生產效率。如果你只是想體驗一下，讓 AI給你一個問題，讓你判斷一下人工智慧是不是真的有智慧，或者是有缺陷，那你就會迷失在自己的安樂窩裏。

2.嘗試一種新的生活方式

瓦特發明了蒸汽機，但最有價值的卻是那些用它來制造的商人。汽車極大地提高了交通運輸的效率，而電子商務則將整個交通系統提升到了一個新的高度，以至於很多網路平台都開始使用第二天送達。

莎拉展現出了她所有的超能力，但是她還缺一個真正的發現她的人。伯樂公司不僅要了解人工智慧工具的種種優缺點，更要對自己的商業系統有深入的了解與認識，並利用人工智慧技術對商業過程進行整合與重構。而隨著時間的推移，越來越多的新技術和人工智慧結合在一起，「侵入」到了各個行業。

3.作為一名「領航員」在遊戲中扮演一個角色

隨機應變，才是正確的選擇。

回顧工業革命，由於機械的發明，熟練的、高級的紡織業工人失去了工作，而不是普通的紡織業工人。之所以如此，那是因為工業革命將專家的經驗固化在了一個體系之內，讓那些原本沒有任何經驗的人，在機械和系統的作用下，也可以發揮出遠超熟練人員的水平。與此類似，波士頓顧問公司近來把顧問分成高低兩類，並采用GPT-4，最後的效果是，初級咨詢師的成績提升了43%，高級咨詢師的提升只有17%。高低兩組之間的表現差距由22%降至4%。

與其急於適應他人所制訂的新制度，還不如借助先行者的優勢，去適應和擁抱變化，做一名規則的「領航員」。對 Sora的出現進行了梳理，在討論中提出了幾個關於「創新」的想法，以供各位參考：