當前位置: 華文世界 > 科技

OpenAI視訊模型「秒殺」一眾模型,AI創業是否難逃大廠降維碾壓!

2024-02-17科技

中國春節期間, OpenAI再次推出了另一個讓人意想不到的產品,它的第一個文字生成模式—— Sora,也就是 Sora。

Sora的特效已經在業內掀起了軒然大波,它不僅可以透過文字來營造逼真的畫面,還可以制作出60秒的視訊。許多人都在期待著新的 OpenAI,就像是在等待著賈伯斯的到來,因為他們總是能看到一些出人意料的科技。

從 Chat GPT,到E3,再到 Sora, OpenAI的獨特之處,可以用兩個字概括:「技術的想象」和「工程」,遠遠超過了「黑科技」。與此同時,那些曾經紅極一時的 AI視訊初創公司,也都被打得落花流水,最多也就是4秒,根本無法和 Sora的60秒相比。就像 OpenAI、谷歌這樣的大公司,「地球上一天的時間,人工智慧就已經發展了上千年」,分分鐘就能把人工智慧公司給幹趴下。這也讓人忍不住感慨, AI創業就是這麽困難,什麽技術護城河,產品護城河,都還在嗎?會不會一夜之間就被大廠飛速發展的技術推翻?

一、想象與工程的爆炸,讓產生式視訊的發展趨於成熟

在 Sora之前,我們所見的很多有聲視訊技術都還沒有達到技術融合,其主要的技術途徑就是用不同的方法讓一幅畫面「動」起來,就像是靜止的動畫一樣。從使用者的實際需要來看:視訊中各個畫面間的連貫和自然是最重要的,即各個畫面間的語意資訊能夠無縫連線。

從 Sora在行業內引起的熱議就可以看得出來,根據需求來開發相應的技術解決方案或產品,要比從技術可實作的角度來開發產品要好得多。

現在讓 OpenAI釋出關於 Sora的所有技術細節是不切實際的,所以開放原始碼將會交給其它的團隊。但在 OpenAI的官方說明中, Sora和其他的文思視訊不同,它可以同時預測多個場景,同時保證視訊的主體不會發生變化。

從技術創新上來說, Sora的技術與方法並不算太過驚世駭俗,也不能算是從無到有的創新,雖然也有類似的研究,但總體來說,計畫還是很成功的。這就是 Sora很有創意的地方,他們在畫面上做出了突破,將視訊的數量限制在了最大。

這和文生的錄像技術難以集中,計畫難以實施有很大的關系。將 Transformer技術引入到文本傳播模型中,使其具有更高的套用價值。這也就意味著,到了2024年, Transformer+ Diffusion模型,才會真正的合二為一。這也是為什麽 Sora一上線就得到了很多人的認可,因為它的文字模型具有很強的一致性和可伸縮性,能夠從多個層面提高使用者對文生視訊的感知能力,從而使其更靠近商業奇異點。

OpenAI已在 Chat GPT、DALLE-3等計畫上取得了重大突破,此次又將上述研究成果進行了整合,使其具備了最大的工程效能。

二、好萊塢風格的商業電影,正在向普通人靠攏

盡管在2023年及之前,盡管有 Runway、 PiKa等現象級產品湧現,但整體上,將傳播模式與語言模式結合起來的研究尚未成為業界的「重中之重」。

在不久的將來,伴隨著文字視訊的普及,制作視訊的門檻也會越來越低,這將有助於我們進行更多的工程實踐,達到好萊塢水平的視訊解決方案。

特別地,在以往的視訊制作前期設計、中期拍攝、後期制作的過程中,逐漸地將重心轉移到了後期制作上,特別是新的視訊元素的持續生成,使得前期設計與中期拍攝的工作流發生了很大的改變,出現了新的工具和工作流程。

最後,將會被運用到各種 C端的消費場景中,例如商品廣告、劇情片等。特別是在視覺藝術,設計師,電影制作等領域,它能為這一領域的從業者提供一種快速的建模與視覺化的方法,從而節約大量的時間與費用。

這一點,給短視訊產業提供了很大的想象力,一般人或許不能用 Sora拍出好萊塢的大片,但60秒鐘的高品質短片,卻是唾手可得。特別是那些對內容邏輯要求較低,對科幻題材的探索,能幫助創作出個人化的內容。 三、與其指望 Sora,還不如期待 AI視訊編輯軟體的流行

OpenAI更多的是充當先鋒,擅長開山辟路,而不是將註意力放在其他方面。

在單一產品上取得了突破性進展, Sora是一個裏程碑。但考慮到商業需要以及混剪輯工作流程的提高, Sora自身的價值仍然存在爭議。

一個60秒鐘的視訊,想要成為下一個董宇輝和李佳琪,那是不可能的,而且,這也是一件非常困難的事情,畢竟,他們還需要很長的一段時間。

就拿短視訊來說,是一遍又一遍地修改提示語,還是用視訊編輯軟體來調整素材?

很明顯,我們對 Sora,或者說,希望能盡快地更新和添加人工智慧工具的視訊剪輯軟體,以實作真正的商業效率提高。另外,基於文本提示的視訊自動生成也面臨著理解上的偏差,這個問題不但困擾著文心,而且在套用 ChatGPT時也沒有得到很好的解決。

就算 Sora完全開放,一般人想要制作出和這次演示一樣的 demo,也是一件非常困難的事情。最後, Sora能否被廣泛使用,取決於它自身能否提高人們的生產力。

這究竟是一場買方秀,還是一場賣方秀,尚需時日方能見分曉。

四、視訊制作行業,其它公司是否無勝算?

答案是否定的。

各大科技公司,都在不斷地投入到人工智慧的研究中。

Meta幾乎是在同一時間推出了V-JEPA,這使得他們無需經過調整就能適用於一系列要求世界性的任務。另外,V-JEPA演算法是基於特征空間的自主學習,具有更高的學習效率。究竟哪個方向才是最後的萬能人工智慧,現在還不清楚。

谷歌也於同期釋出了其 Gemini1.5,該1.5能夠支持10,000個 token的上下文,從而使大型模式的輸出更為一致和實用。多模融合的更順暢,與 OpenAI的工程設計不相上下。

像 Runway、 Pika這樣的純文字類產品,在人工智慧的時代,也是有一席之地的。Sora采用了 Transformer+ Diffusion兩種模式,從模型結構上來說,如果按照 Transformer作為標準,還是以【Transformer】為標準,那麽還是以【Diffusion】為核心,前者的可能性更大。

沒有讓人望塵莫及的技術,只有不斷攀升的工業熱潮。

Sora雖然一次就能制作出數十秒長的視訊,但在實際使用中,如果不能保證使用者可以透過微操作將其融入到自己的工作流中, Sora的影響力很可能會隨著時間的推移而逐漸消失。

即便是在 ChatGPT釋出一年之後,仍有相當數量的使用者不會用它。這也給開源社群制造了一個追趕的視窗,而文生文和文生視訊模式的模組化結合,會不會出現像 iPhone這樣的私有智慧裝置?這樣就可以讓更多的使用者使用這款軟體,從而形成一種開放的、小型的、小型的模型+移動的模式,給整個智慧型手機帶來一場革命。

新的產品總是不斷地湧現出來,技術的傳播也只是剛剛起步,沒有哪一家企業會因為一項新技術的問世而「猝死」。

五、人工智慧大爆發,平民也能成為「領航員」

對於一般人來說,能不被「遙遙領先」、「王炸」這樣的字眼洗腦,就已經很不容易了,更別說保持理智了。在 Sora病毒肆虐的這段時間裏,一般人需要做三件事。

1.將其套用於您所熟知的方案

與焦慮相反的是特殊性。只有透過 Sora這樣的人工智慧技術,將其套用到實際的工作中,我們才能真正感受到,人工智慧將會在多大程度上代替我們的工作。也是為了讓我們更好的了解到,人工智慧是如何套用到我們的問題中來的。對新技術、新套用,初期使用者最大的好處,就是能將其價值提前挖掘出來,從而提升生產力與生產效率。如果你只是想體驗一下,讓 AI給你一個問題,讓你判斷一下人工智慧是不是真的有智慧,或者是有缺陷,那你就會迷失在自己的安樂窩裏。

2.嘗試一種新的生活方式

瓦特發明了蒸汽機,但最有價值的卻是那些用它來制造的商人。汽車極大地提高了交通運輸的效率,而電子商務則將整個交通系統提升到了一個新的高度,以至於很多網路平台都開始使用第二天送達。

莎拉展現出了她所有的超能力,但是她還缺一個真正的發現她的人。伯樂公司不僅要了解人工智慧工具的種種優缺點,更要對自己的商業系統有深入的了解與認識,並利用人工智慧技術對商業過程進行整合與重構。而隨著時間的推移,越來越多的新技術和人工智慧結合在一起,「侵入」到了各個行業。

3.作為一名「領航員」在遊戲中扮演一個角色

隨機應變,才是正確的選擇。

回顧工業革命,由於機械的發明,熟練的、高級的紡織業工人失去了工作,而不是普通的紡織業工人。之所以如此,那是因為工業革命將專家的經驗固化在了一個體系之內,讓那些原本沒有任何經驗的人,在機械和系統的作用下,也可以發揮出遠超熟練人員的水平。與此類似,波士頓顧問公司近來把顧問分成高低兩類,並采用GPT-4,最後的效果是,初級咨詢師的成績提升了43%,高級咨詢師的提升只有17%。高低兩組之間的表現差距由22%降至4%。

與其急於適應他人所制訂的新制度,還不如借助先行者的優勢,去適應和擁抱變化,做一名規則的「領航員」。對 Sora的出現進行了梳理,在討論中提出了幾個關於「創新」的想法,以供各位參考: