OpenAI官宣新模型GPT-4o，微美全像打造AI垂直套用加入市場競爭

2024-05-14科技

繼文生影片模型Sora之後，新晉人工智能霸主Open AI再一次給外界帶來驚喜。台北時間5月14日，預熱已久的Open AI正式向公眾釋出了語音大模型GPT-4o（全能模型）。

全新的大模型炸場

據介紹，GPT-4o在保持GPT-4級別的智能的同時，對文本、視覺和音訊功能進行了改進，可以綜合利用語音、文本和視覺資訊進行推理，扮演個人語音互動助手。

OpenAI表示，GPT-4o裏的「o」是Omni的縮寫，也就是「全能」的意思，接受文本、音訊和影像的任意組合作為輸入，並生成文本、音訊和影像輸出。它可以在短至232毫秒、平均320毫秒的時間內響應音訊輸入，與人類在對話中的反應速度一致。

目前，GPT-4o的多語言功能得到了增強，在50種不同的語言中表現更佳。在OpenAI的API中，GPT-4o的處理速度是GPT-4(特別是 GPT-4 Turbo)的兩倍，價格則是GPT-4 Turbo的一半，同時擁有更高的速率限制。

語音功能震撼亮相

這一次，Open AI向世人展現了強大且絲滑的語音對話等多模態能力。而語音版GPT-4o將「在未來幾周內」開始提供。開發人員將能夠使用GPT-4o的文本和視覺模式，並在未來幾周內向「一小部份值得信賴的合作夥伴」提供音訊和影片功能。

過去530天裏，AI 聊天機器人ChatGPT持續風靡全球，研發ChatGPT的OpenAI公司身處聚光燈下，並迅速成長為860億美金估值的 AI 獨角獸。輝達CEO黃仁勛曾表示，ChatGPT的出現是 AI 的「iPhone時刻」。

現如今，毫無疑問，OpenAI 釋出的最新模型GPT-4o，號稱目前全球最強的 AI 大模型GPT-4o，以擬人化、超自然、超低時延的語音功能驚艷登場，將再次攪動AI科技圈。

行業專家認為，GPT-4o的免費開放不僅展現了OpenAI在AI領域的領導地位，更可能重新定義AI市場的競爭格局，促使其他科技巨頭重新評估其商業模式和服務策略。同時，這也揭示了在GPT強大能力下重新定義場景，並找新產品出路，這或許是大模型發展的長期、正確方向。

微美全像打造大模型垂直套用賽道

隨著大模型發展進入快車道，資料顯示，人工智能創企微美全像（WIMI.US）AI技術創新更叠，技術專利成果整合到大模型產品矩陣中，在競逐大模型的路上，持續接入大模型的能力，同時在「場景的搜尋」和「聚焦運用」，透過打造垂直大模型場景努力解決使用者痛點或剛需，為全球AI大模型技術的普及和發展註入了強勁動力。

如今，微美全像在AI大模型技術全面助力下，孕育開拓一批新業務、新模式、新業態，尤其重點布局了人形機器人產業，成為自身重要的經濟增長新引擎。基於AI 大模型技術的加持，微美全像主要研究方向有語言辨識、影像辨識、自然語言處理，這些研究方向對於機器人智能化有重要意義，同時也是智能機器人研發的難點，將推動人形機器人滲透率提升。

受益於AI大模型技術、產業化行程提速，微美全像展開大規模布局研發，由此開創人形機器人新賽道帶來的發展機遇，使得產品在中下遊市場規模擴大、套用範圍拓展。借助新一代AI大模型技術帶來的發展機遇，微美全像有望實作技術上的突破，未來實作大模型+音訊+AI人形機器人產品戰略，不斷高速增長追趕國際水平。

結語

整體上，OpenAI這一突破性決定標誌著AI技術套用的又一裏程碑，預示著個人與機器之間的互動即將邁入一個前所未有的智能化和普及化時代。值得註意的是，谷歌即將在5月14日召開I/O 開發者大會，宣布安卓、谷歌搜尋等方面的更新。如今OpenAI再度宣戰，壓力也直接給到了即將正面迎戰的谷歌。那麽接下來，就看谷歌的表現了。