當前位置: 華文世界 > 科技

60秒一鏡到底!Sora來了,AGI或在一年內實作?Vision Pro退貨潮來襲;日本GDP跌出世界前三|一周國際財經

2024-02-17科技

◎當地時間2月15日,OpenAI釋出了最新的影片生成模型Sora。出色的影片制作能力瞬間「點燃」科技圈。輝達人工智能研究院首席研究科學家Jim Fan直言,這是影片生成領域的GPT-3時刻。360集團創始人、董事長周鴻祎則稱,隨著Sora的到來,人類離AGI真的就不遠了,不是10年、20年的問題,可能一兩年很快就可以實作。

◎本周,日本內閣府公布的初步統計結果顯示,從2023年的名義GDP來看,日本被德國反超,丟掉了世界第三大經濟體的地位。疲軟的經濟數據讓日本的貨幣政策正常化之路面臨挑戰。日本央行能否如市場預期在今年4月結束負利率政策?每經連線牛津經濟研究院高級日本經濟學家山口範大解讀。

◎14天「嘗鮮期」結束!蘋果Vision Pro退貨潮來襲;橋水重註輝達,巴菲特減持蘋果1000萬股;輝達市值超越谷歌成美國第3大公司。更多內容,盡在【一周國際財經】。

60秒一鏡到底,文生影片的GPT-3時刻!

Sora技術報告揭秘 6大核心優勢

AGI或在1年內實作?

「兩只金毛獵犬在山頂播客」

「火星上日落時的一場極具未來感的無人機比賽」

「在一個與自然和諧共生,同時又有超強龐克氣質和高科技內容的未來城市漫遊……」

根據上述提示詞,OpenAI行政總裁阿爾特曼在X平台上釋出了一系列影片,精美的場景讓使用者驚嘆不已。而這些影片全都是透過OpenAI 2月15日釋出的最新影片生成模型Sora制作的,使用者震驚之余,也給予了Sora高度評價,將其描述為「絕無僅有」和「遊戲規則改變者」。

Sora采用了OpenAI文生圖模型DALL-E 3背後的強大技術,可將簡短的文本描述轉化成長達1分鐘的高畫質影片。業界大佬Gabor Cselle將Sora和Pika、RunwayML和Stable Video進行對比後發現,在輸入相同的提示後,其他主流工具生成的影片都大約只有5秒鐘,Sora可以在一段長達17秒影片場景中,保持動作和畫面一致性。

輝達人工智能研究院首席研究科學家Jim Fan也對Sora的能力發出感嘆,稱 這是影片生成領域的GPT-3時刻。 他表示,Sora是一個「數據驅動的物理引擎」,一個可學習的模擬器或「世界模型」。360集團創始人、董事長周鴻祎則稱, 隨著Sora的到來,人類離AGI真的就不遠了,不是10年、20年的問題,可能一兩年很快就可以實作。

在隨後釋出的技術報告中,OpenAI介紹了Sora的強大效能以及背後的支撐技術,也對Sora的局限性進行了客觀的分析。【每日經濟新聞】記者透過梳理,總結出了Sora的六大核心優勢。

從技術上看,Sora有望將數碼內容的創造力和真實感提升到新的水平,但凡事總有兩面性,影視、廣告制作和影片等行業也將面臨嚴重的沖擊。另外,有專家對於技術的迅猛發展也表示出了擔憂,稱這類技術可能會導致「深度偽造」影片,讓人難以辨識,產生濫用等問題。

技術報告揭秘Sora六大核心優勢

值得註意的是,Sora推出的同一天,谷歌釋出了Gemini多模態模型的更新版本,而三天前,Stability AI推出了新的影像生成模型Stable Cascade。OpenAI的最新舉動無疑將加劇生成式AI圖片和影片領域的競爭。

而在Sora推出後不久,OpenAI釋出了這款新工具的技術報告。在報告中,OpenAI首先重點介紹了如何將不同類別的視覺數據轉化為統一的格式,以便於對生成模型進行大規模訓練的方法,並對Sora的能力和局限性進行了評價。

【每日經濟新聞】記者經過對報告的梳理,總結出了Sora的6大優勢:

(1)準確性和多樣性: Sora的顯著特征之一是能夠準確解釋長達135個單詞的長提示。它可以準確地解釋使用者提供的文本輸入,並生成具有各種場景和人物的高質素影片剪輯。這一新工具可將簡短的文本描述轉化成長達1分鐘的高畫質影片。它涵蓋了廣泛的主題,從人物和動物到郁郁蔥蔥的風景、城市場景、花園,甚至是水下的紐約市,可根據使用者的要求提供多樣化的內容。

(2)強大的語言理解: OpenAI利用Dall-E模型的re-captioning(重述要點)技術,生成視覺訓練數據的描述性字幕,不僅能提高文本的準確性,還能提升影片的整體質素。此外,與DALL·E 3類似,OpenAI還利用GPT技術將簡短的使用者提示轉換為更長的詳細轉譯,並將其發送到影片模型。這使Sora能夠精確地按照使用者提示生成高質素的影片。

(3)以圖/影片生成影片: Sora除了可以將文本轉化為影片,還能接受其他類別的輸入提示,如已經存在的影像或影片。這使Sora能夠執行廣泛的影像和影片編輯任務,如建立完美的迴圈影片、將靜態影像轉化為動畫、向前或向後擴充套件影片等。OpenAI在報告中展示了基於DALL·E 2和DALL·E 3的影像生成的demo影片。這不僅證明了Sora的強大功能,還展示了它在影像和影片編輯領域的無限潛力。

(4)影片擴充套件功能: 由於可接受多樣化的輸入提示,使用者可以根據影像建立影片或補充現有影片。作為基於Transformer的擴散模型,Sora還能沿時間線向前或向後擴充套件影片。從OpenAI提供的4個demo影片看,都從同一個影片片段開始,向時間線的過去進行延伸。因此,盡管開頭不同,但影片結局都是相同的。

(5)優異的器材適配性: Sora具備出色的采樣能力,從寬屏的1920x1080p到豎屏的1080x1920,兩者之間的任何影片尺寸都能輕松應對。這意味著Sora能夠為各種器材生成與其原始長寬比完美匹配的內容。而在生成高分辨率內容之前,Sora還能以小尺寸迅速建立內容原型。

(6)場景和物體的一致性和連續性: Sora可以生成帶有動態視角變化的影片,人物和場景元素在三維空間中的移動會顯得更加自然。Sora 能夠很好地處理遮擋問題。現有模型的一個問題是,當物體離開視野時,它們可能無法對其進行追蹤。而透過一次性提供多幀預測,Sora可確保畫面主體即使暫時離開視野也能保持不變。

據外媒報道,Sora的推出標誌著AI研究的一個重要裏程碑。憑借其模擬和理解現實世界的能力,Sora為未來實作通用人工智能(AGI)奠定了基礎。 從本質上講,Sora不僅僅是生成影片,而是在突破AI所能完成的極限。

伊利諾大學厄巴納-香檳分校資訊科學教授Ted Underwood表示:「就算是在未來的2-3年,我也沒想過影片制作可以達到這樣持續、連貫的水平。」他表示,與其他文本到影片工具相比,「容量似乎有所提升」。

OpenAI CEO阿爾特曼在X平台上透露,Sora目前已向紅隊成員(red teamers,指的是誤導資訊、仇恨內容和偏見內容等方面的專家)和部份創意人士開放。

業內人士:Sora可能讓AGI在1年左右實作

輝達人工智能研究院首席研究科學家Jim Fan則在X平台發文表示,「如果你還是把Sora看成DALLE那樣的生成式玩具,還是好好想想吧,這是一個數據驅動的物理引擎。他是對許多世界的模擬,無論是真實的還是幻想的。」他認為, Sora是一個可學習的模擬器,或「世界模型」。

在他看來, Sora代表了文本生成影片的GPT-3 時刻。 而針對部份稱「Sora並沒有學習物理,僅僅是在二維空間裏對像素進行操作」的聲音,他表示,Sora所展現的軟物理仿真實際上是一種隨著規模擴大而出現的特性。Sora 必須學習一些隱式的文本到 3D、3D 變換、光線追蹤渲染和物理規則,才有可能精確地模擬影片像素。它必須理解遊戲引擎的概念,才有可能生成影片。

在前女友格萊姆斯的一條推文下方,馬斯克回應稱:「有了AI加持的人類將在未來幾年裏創造出最好的 作品。」 格萊姆斯在X平台上釋出了多條推文,討論OpenAI這項新技術對電影以及更廣泛的藝術創作的影響。此外,有網友在評論Sora生成的60秒時尚女子在東京街頭散步時稱,「gg Pixar(皮克斯動畫制作公司)」(編註:gg為Good Games縮寫,代指「打得好,我認輸」 ),隨後馬斯克回復,「gg humans(人類)」。

對於Sora的最大優勢,360集團創始人、董事長周鴻祎說,「這次OpenAI利用它的大語言模型優勢,讓Sora實作了對現實世界的理解和對世界的模擬兩層能力,這樣產生的影片才是真實的,才能跳出2D的範圍模擬真實的物理世界。」他同時稱,「 一旦人工智能接上網絡攝影機,把所有的電影都看一遍,把YouTube上和 TikTok 的影片都看一遍,對世界的理解將遠遠超過文字學習,一幅圖勝過千言萬語,這就離AGI真的就不遠了,不是10年、20年的問題,可能一兩年很快就可以實作。

影視等行業面臨顛覆

然而,Sora在帶來無限可能的同時,也將對部份行業產生巨大的影響,包括影視、廣告制作、教育、遊戲、新聞和動畫等領域。

談及Sora的行業沖擊時,Jim Fan評價道,Sora的物理學理解目前還是脆弱的,遠非完美。它仍然會產生幻覺,生成與物理常識不符的事物,還沒有很好地掌握物體互動的原理。

周鴻祎對此也深以為然,他指出,AI不一定那麽快顛覆所有行業,但它能激發更多人的創作力。他表示,「Sora只是小試牛刀,它展現的不僅僅是一個影片制作的能力,而是大模型對真實世界有了理解和模擬之後,會帶來新的成果和突破。」

他解釋說,「機器能生產一個好影片,但影片的主題、指令碼和分鏡頭策劃、台詞的配合,都需要人的創意至少需要人給提示詞。」他強調,科技競爭最終比拼的是人才密度和深厚積累。

而對於Sora當前存在的弱點, OpenAI也明確指出,它可能難以準確模擬復雜場景的物理原理,並且可能無法理解因果關系。該模型還可能混淆提示的空間細節, 例如混淆左右,並且可能難以精確描述隨著時間推移發生的事件,如遵循特定的相機軌跡。而這些缺陷可能導致Sora生成一些不合邏輯的東西,比如一個人在跑步機上跑錯方向,以不自然的方式改變主題,甚至出現憑空消失的現象。

濫用仍是最大的擔憂

隨著名人、政客等人物的深度造假影片在網上變得越來越普遍,相應的倫理和安全問題也讓人心驚,尤其是在總統選舉年和緊張的政治局勢背景下。

Gartner分析師Arun Chandrasekaran表示,「鑒於這項技術確實非常新,他們必須對其進行充分控制,以防止其被濫用和誤用,甚至客戶在沒有認識到這項新興技術所有局限性的情況下使用它。」他補充道, OpenAI為該模型設定的防護措施以及確定誰可以獲得存取許可權至關重要。

牛津互聯網學院客座政策研究員Mutale Nkonde也表示,任何人都可以輕松地將文本轉換為影片這一想法令人興奮。但同時,她也擔心這些工具可能會植入社會偏見和仇恨內容,對人們生計造成影響等。

普林斯頓大學電腦科學教授Arvind Narayanan對此也有擔憂,認為Sora這類技術可能會導致「深度偽造」影片,讓人們難以辨識。雖然AI制作的影片仍會有一些不一致的地方,但普通人可能不會註意到這些細節。「遲早,我們需要適應現實主義不再是真實性的標誌這一事實。」

針對業界的擔憂,與此同時,監管機構也在加強管理。美國聯邦貿易委員會(FTC)2月15日提出了禁止使用AI工具冒充個人的規則。FTC表示,它正在提議修改一項已經禁止冒充企業或政府機構的規則,將保護範圍擴大到所有個人。

跌出全球前三!日本經濟失速,股市卻逆勢飆升

負利率能否如預期終結?

2月15日公布的數據顯示,日本GDP在2023年第四季度意外下滑,連續兩季度下滑進入技術性衰退。 從2023年全年來看,日本的名義GDP雖然增長了5.7%,但經濟總量卻低於德國,丟掉了世界第三大經濟體的地位。

日本經濟在二戰後的迅速崛起創造了一個經濟奇跡,在1968年至2009年,日本一直是僅次於美國的全球第二大經濟體,直到2010年被中國超越。此番GDP總量再遭德國超越,對日本社會無疑將造成一定的心理沖擊。東京大學經濟學教授岡崎哲二(Tetsuji Okazaki)認為,日本在國際舞台的活躍度可能會下滑。

技術性衰退,以及國內消費和企業投資連續三個季度下滑,讓日本央行實作貨幣政策正常化的計劃左右為難。對此,牛津經濟研究院高級日本經濟學家山口範大對【每日經濟新聞】記者表示,GDP是向後看的數據,如果日本民眾實際收入改善,日本央行仍然大概率將在4月結束負利率。

日本,不再是全球第三

當地時間2月15日,日本內閣府公布的初步統計結果顯示,2023年日本名義本地生產總值(GDP)初步統計數據為591.482萬億日元(約合42106億美元),低於德國的44561億美元,降至世界第四位,被德國反超。

結果同時顯示,2023年日本名義GDP增長5.7%,實際GDP同比增長1.9%。名義GDP是按當年市場價格計算的一年所生產的全部產品和勞務的價值,相較實際GDP,名義GDP更易受到市場價格波動影響。盡管德國2023年的GDP萎縮0.3%,但由於物價上漲以及歐元兌美元升值推高了德國GDP,因此仍然超越了日本。

2023年,日元對美元匯率大振幅貶值。本周,日元兌美元一度觸及1美元兌150.5~150.9日元的水平,是大約三個月來的低位。而在日元貶值之外,日本的人口減少和老齡化問題,以及生產效率和競爭力的停滯,被經濟學家視為其跌落第三大經濟體的結構性因素。「數年前,日本以強大的工業如汽車為傲。但隨著電動汽車時代的來臨,這一優勢也被動搖。展望未來幾十年,日本的前景比較暗淡。」岡崎哲二對美聯社表示。

實際上,國際貨幣基金組織在2023年10月就曾預測日本將失去世界第三的位置,而且到2026年,日本經濟規模還將被印度趕超。

日本內閣府公布的數據還顯示,日本2023年第四季度實際GDP環比下降0.1%,換算成年率下降0.4%。這一數據頗為意外,據市場資訊公司日經QUICK,民間預測中間值為年率增長1.0%。加上2023年第三季度GDP修正後下滑3.3%,日本經濟已經連續兩個季度負增長,符合技術性衰退的標準。

牛津經濟研究院的高級日本經濟學家山口範大對【每日經濟新聞】記者表示, 日本經濟下滑的主要原因是國內需求疲軟, 去年第四季度收縮了0.3個百分點,相比之下凈出口則增加了0.2個百分點。「最拖後腿的是消費,已經連續下滑了三個季度,特別是服務業消費(下降0.6%,上一季度增長0.3%)自2022年第一季度來首次下滑,說明(疫情)積壓的需求已經在減弱。」

山口範大指出, 消費之外,企業投資也在下滑。 2023年第四季度日本的器材投資下降0.1%,也是連續第三個季度下降,主要是由於高昂的原材料價格和嚴重的勞動力短缺拖累了企業投資計劃的實施。但實際上,日本企業的投資意願較強,大企業預期將在3月結束的財年裏將資本支出提高13.5%。

「總體而言,2023年第四季度的疲軟GDP數據支撐了我們對2024年日本經濟增長0.6%的預測,這一預測低於共識。」 山口範大表示。

專家:GDP反映的是過去,4月結束負利率可期

疲軟的經濟數據讓日本的貨幣政策正常化之路面臨挑戰。

此前市場普遍預測,日本央行很有可能在4月份的政策會議上開始結束施行多年的負利率政策。一方面,通脹率超過日本央行設定的2%目標已經長達一年多,是打壓國內消費的關鍵因素之一,日美的利率差也造成了日元持續的貶值壓力。另一方面,疲軟的日本經濟仍然需要超寬松貨幣政策的刺激。去年剛上任的日本央行行長植田和男面臨著嚴峻考驗。

據我判斷,日本銀行將在4月份結束負利率政策。GDP數據反映的是過去的情況,而不是前景。 隨著實際收入恢復,消費者信心也在改善, 我認為日本銀行將堅持‘日本經濟可能會繼續溫和復蘇’的判斷,因此去年第四季度的GDP不太可能會對他們的決策產生重大影響。 」 山口範大對【每日經濟新聞】記者表示。

山口範大的分析也得到了新聞報道的印證。路透社2月16日報道稱,知情人士透露,GDP只是日本央行關註的多個數據之一,重要的是經濟整體趨勢和前景,因此日本央行仍將在未來幾個月裏結束負利率。2024年春季的年度薪金協商是否會提高薪金收入水平將是重要指標。由於勞動力緊缺,許多企業已經釋放出將大幅提高薪金的訊號。日本央行希望薪金提高和物價上漲的壓力放緩能夠為貨幣政策正常化創造空間。

而與經濟數據形成鮮明對比的是火熱的日本股市。2月16日,東京證券交易所日經平均指數繼續上漲,收於38487.24點,盤中一度與1989年12月底創下的歷史最高價(38915.87點)相差僅50點。開年以來,日經平均指數已經上漲15%。

【日本經濟新聞】報道指出,日本股市上漲的動力來自於日企的海外盈利能力。2月15日,信越化學和富士電機的股價均創下上市以來新高,兩家公司的海外銷售額分別占80%和30%。日元貶值提高了日企海外子公司的利潤,推動股價上漲。此外,隨著AI技術的熱潮,日本半導體股票也受到投資者追捧。

山口範大對每經記者解釋說,「我認為經濟數據不會惡化市場信心。2023年第四季度實際GDP下滑了,但名義GDP仍然增長,這一數據對企業的盈利影響更大。 此外,日元持續疲軟,加上IT行業進入正周期,意味著企業盈利將會保持堅挺,特別是那些全球營運的企業。日元貶值同樣意味著入境遊客數量和消費仍將強勁。

14天「嘗鮮期」結束!

蘋果Vision Pro退貨潮來襲

據科技報道The Verge,隨著14天的「嘗鮮期」結束,蘋果Vision Pro開始遭遇退貨潮(註:蘋果允許使用者在14天內退貨)。報道稱,不舒適、頭痛和眼睛疲勞是退貨的主要原因。有使用者表示,Vision Pro讓他們頭痛並引發運動暈眩癥。

蘋果並未公開銷售數據,但蘋果非官方新聞網站 Cult of Mac 的一項民意調查顯示,45% 的受訪者計劃退回這款耳機。

作為蘋果頭顯領域的對手之一,Meta CEO朱克伯格釋出了一段大約3分30秒長的影片,對Vision Pro作出「測評」,並將這一器材與自家產品Quest 3作對比。

在影片中,朱克伯格稱,「蘋果的螢幕確實有更高的分辨率,這確實非常好,但令我驚訝的是,他們必須在器材的質素、舒適度、人體工學以及顯示器和其他方面做出大量的權衡才能達到這一目標。」對他來說,售價500美元的Quest 3毫無疑問是更好的「買賣」,畢竟Vision Pro的價格是Quest 3的7倍。

盡管Vision Pro受到部份使用者詬病,但有機構仍給予了較高的銷售預期。Statista在近期的一份報告中預估,Vision Pro頭顯上市首年出貨量為35萬台,第二年將達到148萬台。

橋水、前索羅斯副手重註輝達

巴菲特減持蘋果1000萬股

隨著美股市場13F檔的披露,多家知名投資機構最新的調倉換股情況浮出水面。

數據顯示,截至2023年年底,對沖基金橋水在美股的持倉總市值達到179億美元。去年第四季度,橋水加倉了強生、Alphabet、Meta、默克、禮來、輝達等多只標的,減持了百事可樂、寶潔、可口可樂、開市客、拼多多等多只標的。

值得一提的是, 橋水對禮來的加倉振幅高達413%左右 ,去年四季度買進25.56萬股,持股數量增至31.76萬股,期末持倉市值為1.85億美元。 橋水對輝達的加倉振幅也高達458%左右 ,去年四季度增持22.03萬股左右,持倉增至26.85萬股,持倉市值為1.33億美元。

據晨星報道,截至2023年12月31日,AI仍然是前索羅斯副手、億萬富翁斯坦利·德魯肯米勒的家族辦公室投資組合中的重要主題。輝達是德魯肯米勒最大的持倉,他的基金持有價值近5.5億美元的輝達股票,約占其總股本的16%。

巴菲特旗下伯克希爾哈撒韋公布的13F檔顯示, 伯克希爾哈撒韋去年第四季度減持蘋果1000萬股,並增持雪佛龍1600萬股。 截至該季度末,該基金持倉總規模為3470億美元,較上季度增加340億美元,蘋果在投資組合中占比為50.19%,仍為其第一重倉股。

輝達進軍客製芯片 領域,市值超越谷歌成美國第3大公司

據路透社報道,至少九位知情人士透露,輝達正在建立一個新的業務部門,專註於為雲端運算等公司設計客製芯片 ,包括先進的AI處理器。

這一最新舉動有望進一步鞏固輝達在AI 芯片 方面的領導地位。輝達控制著約 80% 的高端AI 芯片 市場,在人工智能浪潮的推動下,其市值在 2023 年增長了兩倍多。微軟、OpenAI、Meta等公司競相采購輝達高端AI 芯片 ,以尋求在快速增長的AI領域保持競爭力。

當前輝達A100、p00、p00等最先進 AI GPU供不應求。今年迄今,輝達股價已經累計上漲了50.75%,市值達到 1.79 萬億美元,超過谷歌(1.76萬億美元),成為美股市值第三大的公司。

軟銀創始人擬籌集1000億美元成立芯片 企業

據彭博社援引知情人士報道,軟銀集團創始人孫正義正尋求籌措1000億美元資金成立一家 芯片 企業,以與輝達競爭。

該計劃專案代號為「伊邪那岐」(Izanagi),是自軟銀大幅削減初創企業投資以來,這位億萬富翁的最新重大嘗試。報道稱,軟銀考慮向該專案註入300億美元資金,另外700億美元可能來自中東的機構。

軟銀已經在 芯片 設計公司Arm中持有90%的股份。本周,受上周公布的超預期財報刺激,Arm股價連續大漲,三個交易日內漲幅超過90%。Arm的起飛也讓背後的軟銀回了一波血。自Arm公布財報以來,軟銀股價已經上漲超過20%。

更多美國區域銀行危機將至?

22家銀行商業地產貸款達到資本的三倍以上

據彭博社,截至去年年底,20多家美國區域銀行擁有的商業地產貸款規模過大,美聯儲、聯邦存款保險公司(FDIC)和貨幣監理署(Office of the Comptroller of the Currency)已指示這些貸款應受到更多的審查。分析認為,這一訊號表明可能會有更多的銀行面臨監管的壓力,要求增加準備金。

美聯儲負責銀行監管的副主席 Michael Barr當地時間2月16日在紐約哥倫比亞大學的講話中說,監管機構正在「密切關註」商業地產貸款中的風險,並且已經開始下調財務壓力較大的銀行的監管評級。

彭博社的調查發現,22家資產規模在100億到1000億美元的區域銀行所持有的商業地產貸款是其資本的三倍以上。在資產少於100億美元的社區銀行中,這一數碼甚至更高:47家擁有規模過大的貸款組合,其中13家增速過快。(註:分析不包括針對業主自用的非住宅建築的貸款。)

免責聲明:本文內容與數據僅供參考,不構成投資建議,使用前請核實。據此操作,風險自擔。

記者| 蘭素英 李孟林

編輯 | 王月龍 孫宇婷 劉青彥 杜波

校對| 劉小英

|每日經濟新聞 nbdnews 原創文章|

未經特許禁止轉載、摘編、復制及映像等使用

每日經濟新聞