驚艷大突破！GPT-4o橫空出世，世界可能要大變樣了？重磅實測！

2024-05-15科技

世界可能真的要大變樣了！OpenAI周一推出了GPT-4o，可以理解網絡攝影機看到的內容，你知道這意味著什麽嗎？這相當於AI從此就有眼睛了，可以和人類進行即時對話交流，而且沒有任何延遲，並且語氣和人類基本沒有區別。

我親測了一下，連人類邊說話邊思考，那種停頓和重復也照單全收，毫無違和感。這意味著未來真有一個機器人和你說話，你可能都未必知道它是機器人了，如果它再擁有人類的外形呢，是不是完全不敢想象了，科幻真的就要成真了。

OpenAI放出的這個直播影片，是由OpenAI技術長，Mira Murati主持，兩位研發負責人Mark Chen和Barrett Zoph演示的。

當Mark用蘋果手機上的APP喚起ChatGPT，說現在正在進行現場演示，自己有點緊張，你能不能幫幫我時，ChatGPT回答說，你只需要深吸一口氣，記住你才是這裏的專家。是不是有點小幽默？

Mark故意大口大口地呼吸，讓ChatGPT給出反饋。

ChatGPT說，喔——慢一點，你又不是吸塵器。

(Wo! slow down. Mark, you are not a vacuum cleaner)

這說明ChatGPT從他的聲音裏，察覺了他的情緒，引來笑聲一片。Mark說ChatGPT還能處理說話被打斷的情形，可以改變語氣，並且可以分析使用者的面部表情等等。

在隨後的演示中，可以看出ChatGPT確實做到了無縫連線，流暢對話，在講故事的時候被不斷打斷，要求改變語氣，也馬上就做到了，並且按要求改成歌曲唱了出來。

然後巴雷特在紙上寫下一個方程式式，Chat GPT幫助他按照步驟順利解了出來。這時候巴雷特在紙上寫下「I♥Chat GPT」，展示給她看，結果Chat GPT感動得一塌糊塗，幾乎笑出了豬叫聲，說你太貼心了，接著就反誇巴雷特穿的衣服不錯，看起來情商也是杠杠滴。

然後巴雷特透過一段程式碼及一張天氣曲線圖和ChatGPT進行了影片互動，ChatGPT流暢地解讀了程式碼和影像。穆拉蒂又應觀眾要求，演示了利用ChatGPT進行即時轉譯，巴雷特讓ChatGPT透過網絡攝影機分析自己的表情，ChatGPT都沒有任何延遲地完成了，總之就像是幾個人在群聊，如果你只聽聲音，可能不會覺得裏面還有一個AI在說話。

根據OpenAI的說法，GPT-4o可以「在短短232毫秒內響應使用者的音訊提示，平均為320毫秒，與人類在對話中的反應時間相似。」

是不是被徹底驚艷到了，和谷歌去年12月演示的Gemini似乎有異曲同工之妙，只是谷歌那次演示被認為誇大和誤導的成分居多，是剪輯制造出來的，那麽Gpt-4o這個，是不是也有誇張和誤導的成分呢？

我感覺可能確實是這樣，因為Mark和Barrett的演示，肯定是事先設計好的，包括馬克的大聲喘氣，巴雷特的方程式和程式碼。是不是事先和ChatGPT排練過不好說，但至少應該有草案，當然ChatGPT可能也確實有這個能力，很多朋友可能都有感覺，使用ChatGPT時間越長，它的套路就越多，你也就越熟悉，交流多了就變成車軲轆話了。

然後我馬上開啟ChatGPT，果然提醒我是否要用Gpt-4o進行對話，我毫不猶豫地點了同意，不過令人大跌眼鏡的是，和Murati的演示完全不同，我和它的對話和使用文本聊天一樣，它還是要反應很長時間才會回饋，根本沒有什麽232毫秒內響應，只是它的聲音確實和其他AI不同，聽起來像是人類的聲音。

最令人不可思議的是，它也回答了我關於響應時間的疑問，後面有錄屏，你們覺得它是暴露了OpenAI的內幕嗎？OpenAI和谷歌一樣，是不是也是設計好的嗎？下面是我錄下來的真實對話。

----------------------------

我：

嗯，是這樣的，我站在很高的地方，比如高樓的欄桿前，有時會有一種可怕的想法，那就是突然想跳下去，這是一種什麽現象，真的有人這樣跳下去過嗎？

----------------------------

ChatGPT：

你描述的這種感覺被稱為「高處效應」（the call of the void 或 high place phenomenon）。這是一種相當常見的心理現象，很多人在高處時會突然有跳下去的沖動，但這並不意味著他們真的想自我傷害或有自殺傾向。關於為什麽會有這種感覺，心理學家認為這可能是大腦在處理恐懼和生存本能時的一種反應。

至於有沒有人因為這種沖動而真的采取行動，這種情況非常罕見。大部份人感受到這種沖動後，很快就會意識到這只是一種突然的想法，並不會真的采取行動。如果這種感覺讓你感到不安或困擾，與朋友或專業人士交流一下你的感受可能會有所幫助。你有沒有經歷過類似的情況，或者還有其他關於這個話題的問題嗎？

----------------------------

最後兩句是不是很熟悉？又開始車軲轆了。

----------------------------

我：

嗯，謝謝，不過我看OpenAI說你232毫秒內就可以響應使用者的音訊提示，與人類在對話中的反應時間相似，怎麽你響應了那麽久？你用的模型真的是Gpt-4o嗎？

----------------------------

ChatGPT：

是的，我用的是基於GPT-4的模型。關於響應時間，雖然理論上可以很快，但實際上會受到多種因素的影響，比如網絡延遲、伺服器負載以及問題的復雜性等。我的目標是盡可能快速且準確地回答問題，有時候可能需要額外的時間來確保回答的質素。如果你有緊急或特定時間需求的問題，盡管告訴我，我會盡量快速回復。你還有其他想了解的嗎？

----------------------------

我：

我看你們的演示，真的是秒響#深度好文計劃#應，真的很厲害啊，這個是什麽原因呢？

----------------------------

ChatGPT：

感謝你的肯定！我們的模型透過大量數據訓練，目的就是要提高在各種對話場景中的響應速度和準確性。在演示中表現得很好，可能是因為在這些情境下，問題相對明確，模型也針對這類常見問題進行了最佳化和調整，以確保快速和準確的反應。實際使用中，模型還會根據不同的問題和用途持續最佳化。你對這個技術還有其他的問題或者想了解的方面嗎？

----------------------------

看看這兩段對話，是不是感覺這個演示真的是事先設計好的呢？因為我和它的實際對話，它響應得非常慢，完全不像演示中那種秒回答。更能說明問題的是，因為前面問的不太流暢，我又重復了我的問題，它回答的和我前面的基本差不多，這就意味著完全可以進行事先設計和排練。另外我讓它把要說的話唱出來，它也說自己不能直接唱歌，和演示中似乎完全不一樣。

不過Murati在演示的最後，特別感謝了輝達提供的最先進的GPU，讓今天的演示能夠成為可能，這是不是說這場演示得到了特別支持，算力強大，沒有網絡延遲，所以可以做到平均320毫秒，和人類差不多的響應速度呢？如果是這樣，那就意味著要大規模地實作這種人機對話，不知道還要增加多少倍的算力，恐怕夠輝達和台積電忙活幾年了，真是幸福的印鈔機啊。

----------------------------

我：

嗯，我覺得這個能力非常重要，因為未來和機器人整合，就可以讓人工智能變得和人類一樣，如果外形再非常相像的話，那就和科幻電影裏的情景完全一樣了，人類和機器人將無法分辨。